首页 理论教育 动态数据高效属性约简算法及性能分析成果

动态数据高效属性约简算法及性能分析成果

时间:2023-11-01 理论教育 版权反馈
【摘要】:4.1.4.1实验方案我们从UCI 机器学习公用数据集上下载了6 组数据集进行实验,下载的6 组数据集的具体描述如表4-3 所示.仿真实验所用的计算机软件和硬件配置环境如表4-4 所示.另外,本章所提出的基于矩阵、非矩阵方法的动态属性约简算法主要以完备决策信息系统为研究对象.因此,对于不完备决策信息系统中具有缺失的数据,在实验过程中进行简单删除即可.在实验过程中,由于计算机运行时间不稳定,为了使

动态数据高效属性约简算法及性能分析成果

4.1.4.1 实验方案

我们从UCI 机器学习公用数据集上下载了6 组数据集进行实验,下载的6 组数据集的具体描述如表4-3 所示.仿真实验所用的计算机软件和硬件配置环境如表4-4 所示.另外,本章所提出的基于矩阵、非矩阵方法的动态属性约简算法主要以完备决策信息系统为研究对象.因此,对于不完备决策信息系统中具有缺失的数据,在实验过程中进行简单删除即可.在实验过程中,由于计算机运行时间不稳定,为了使运行时间更具有代表性,我们把多次运行的时间取平均值作为属性约简的时间,本章取10 次运行时间的平均值作为实验最终结果值.

表4-3 数据集的具体描述

表4-4 计算机软件和硬件配置环境

仿真实验方案介绍如下:

(1)针对不同数据集,对属性增加时动态属性约简算法和非动态属性约简算法的运行结果进行比较,具体实验方案如下:

在实验中,把表4-3 数据集中的属性均匀分成两部分,其中包含50%的条件属性和决策属性的数据集作为基本数据集,另外一部分数据集作为增量数据集.当我们在基本数据集中添加增量数据集时,分别用动态属性约简算法和非动态属性约简算法运行每个数据集.

(2)针对同一数据集中增加不同数目的属性,对动态属性约简算法和非动态属性约简算法的运行结果进行比较,具体实验方案如下:

在实验中,首先把表4-3 数据集中的属性均匀分成两部分,其中包含50%的条件属性和决策属性的数据集作为基本数据集,另外一部分数据集再按照条件属性集均匀分成5 部分依次作为增量数据集,当每个增量数据集添加到基本数据集时,分别用动态属性约简算法和非动态属性约简算法运行每个数据集.

(3)针对不同数据集,对属性增加时动态属性约简算法和非动态属性约简算法所得的属性约简的近似分类精度和近似分类质量进行比较,具体实验方案如下:

在实验中,运用粗糙集中近似分类精度和近似分类质量两个评价指标分别对动态属性约简算法和非动态属性约简算法所获得的属性约简的有效性进行分析,当所得到的属性约简的近似分类精度和近似分类质量的数值相等或相近时,说明动态属性约简算法所得到的属性约简是有效的.

(4)针对不同数据集,对属性增加时动态属性约简算法和非动态属性约简算法所得的属性约简的分类精确度结果进行比较,具体实验方案如下:

在实验中,运用十字交叉方法分别对动态属性约简算法和非动态属性约简算法所获得的属性约简的分类精确度进行分析,即把表4-3 数据集中的对象分成90%和10%两部分,其中90%的部分数据集在实验过程中作为训练集,剩余10%的部分数据集在实验过程中作为测试集,利用贝叶斯分类方法运行每个数据集.

(5)针对不同数据集,对属性增加时所提出的基于非矩阵方法的动态属性约简算法和其他动态属性约简算法的实验结果进行比较,具体实验方案如下:

在实验中,把表4-3 数据集中的属性集均匀分成两部分,其中包含50%的条件属性和决策属性的数据集作为基本数据集,另外一部分数据集作为增量数据集.当我们在基本数据集中添加增量数据集时,分别用所提出的基于非矩阵方法的动态属性约简算法和其他动态属性约简算法运行每个数据集.

4.1.4.2 性能分析

以上各实验结果分析如下:

(1)属性增加时,动态属性约简算法的结果与非动态属性约简算法的结果比较.

当决策信息系统属性增加时,分别用基于矩阵、非矩阵方法的动态属性约简算法以及非动态属性约简算法来更新属性约简,其结果如表4-5 和表4-6 所示.结果表明:基于矩阵、非矩阵方法的动态属性约简算法以及非动态约简算法所得到的属性约简数目、属性约简数值是非常相近甚至有些数据集的属性约简数值是相等的,但是基于矩阵方法的动态属性约简算法的更新时间小于非动态属性约简算法的更新时间,基于非矩阵方法的动态属性约简算法的更新时间小于基于矩阵方法的动态属性约简算法的更新时间.结果说明:基于非矩阵方法的动态属性约简算法在实际应用中具有较好的适应性.

表4-5 比较算法CAR 和MIRA 的运行结果

续表

表4-6 比较算法CAR 和IARC 的运行结果(www.xing528.com)

续表

(2)不同大小属性增加时,动态属性约简算法的结果与非动态属性约简算法的结果比较.

当不同大小的属性增加时,分别用基于矩阵、非矩阵方法的动态属性约简算法和非动态属性约简算法来更新时间,结果比较如表4-7 和表4-8所示.分别把大小不同的属性添加到基本数据集中进行测试,仿真实验结果用图4-2 中的各个子图表示.图中X 轴为增加的大小不同的属性集,Y轴为不同算法属性约简的运行时间的常用对数值(由于基于非矩阵方法的动态属性约简算法更新时间比较小,为了使图形能够客观地反映不同算法的趋势,Y 轴用不同算法属性约简运行时间的常用对数值表示).图中圆圈线表示非动态属性约简算法运行时间的常用对数值,方格线表示基于矩阵方法的动态属性约简算法运行时间的常用对数值,棱形线表示动态属性约简算法运行时间的常用对数值.表4-7 和表4-8 表示动态属性约简算法和非动态属性约简算法所得到的属性约简数目、属性约简数值是非常相近甚至有些数据集的属性约简数值是相等的.图4-2 结果表明:随着决策信息系统的属性不断增加,基于矩阵、非矩阵方法的动态属性约简算法和非动态属性约简算法的更新时间都有所增加,但非动态属性约简算法的更新时间增加得更多.实验结果验证了基于非矩阵方法的动态属性约简算法在处理变化数据集的过程中具有较强的计算优势.

表4-7 比较算法CAR 和MIRA 的运行时间(s)

表4-8 比较算法CAR 和IARC 的运行时间(s)

图4-2 属性增加时基于矩阵方法的动态属性约简运行时间与 非动态属性约简运行时间比较

(3)属性增加时,动态属性约简算法与非动态属性约简算法所得的属性约简的近似分类精度和近似分类质量结果比较.

当决策信息系统属性增加时,运用粗糙集理论中近似分类精度和近似分类质量两个评价指标分别对动态属性约简算法和非动态属性约简算法所获得的属性约简的有效性进行分析,比较结果如表4-9 所示.结果表明:动态属性约简算法和非动态属性约简算法所获得的属性约简的近似分类精度和近似分类质量数值是非常相近的,甚至有些数据集的近似分类精度和近似分类质量值是相等的.结果验证了动态属性约简算法所获得的属性约简是有效的.

表4-9 比较算法CAR、MIRA 和IARC 的近似分类精度和近似分类质量

(4)属性增加时,动态属性约简算法与非动态属性约简算法所得的属性约简的分类精确度结果比较.

当决策信息系统属性增加时,运用十字交叉方法分别对动态属性约简算法和非动态属性约简算法所获得的属性约简的分类精确度进行分析比较,比较结果如表4-10 所示.结果表明:动态属性约简算法和非动态属性约简算法所获得的分类精确度非常相近甚至某些数据集的分类精确度是相等的.结果验证了所提出的动态属性约简算法能够快速找到一个有效的属性约简.

表4-10 比较算法CAR、IARC 和MIRA 的分类精确度(%)

(5)属性增加时,基于非矩阵方法的动态属性约简算法与其他动态属性约简算法的实验结果比较.

当决策信息系统属性增加时,分别用基于非矩阵方法的动态属性约简算法、基于信息熵的动态属性约简算法和基于正区域的动态属性约简算法运行每个数据集,比较结果如表4-11 所示.结果表明:基于非矩阵方法的动态属性约简算法、基于信息熵的动态属性约简算法和基于正区域的动态属性约简算法所得到的属性约简数目、属性约简数值是非常相近甚至某些数据集是相等的,但是基于非矩阵方法的动态属性约简算法的更新时间小于基于信息熵的动态约简算法和基于正区域的动态约简算法的更新时间.结果说明:所提出的动态属性约简算法在计算决策信息系统属性增加情况下的属性约简是非常有效的.

表4-11 比较知识粒度动态属性约简算法和其他动态属性约简算法的运行结果

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈