数据挖掘方法在实际应用中的举例

时间：2026-01-22 理论教育筱悦版权反馈

【摘要】：数据挖掘的实际应用与计算机技术和应用数学息息相关，研究的难度比较大，下面仅以实际中最常见的两种挖掘方法为例，让读者有一个初步的了解。·根据训练数据，例如A及类似A的学生应评为一等奖等。·公式Total=∑PiFi就是从数据中“挖掘”出来的，其所分类的知识可以推广使用。·从训练数据中挖掘出每一个结点的分类门限，例如在“品德”结点，为B则淘汰，为A则进入得奖量化值结点，以此类推。

数据挖掘的实际应用与计算机技术和应用数学息息相关，研究的难度比较大，下面仅以实际中最常见的两种挖掘方法为例，让读者有一个初步的了解。

1）关联规则挖掘

一个超级市场的销售系统记录了客户购买货物的详细情况。下面以一个简单的客户购物清单加以分析，见表7.6。

表7.6　客户购物清单

超市经理想知道商品之间的关联，要求列出那些同时购买的、且支持度≥0.4（即在5 行中至少出现两次）的商品名称。知识发现数据库系统通过特定算法（例如著名的Apriori（验证）算法或改进型算法）多次扫描数据库，依次得出如表7.7 和表7.8所示的结果。其中支持度＜0.4 的项目，如单项中的｛面包｝、｛雨伞｝和双项中的｛尿布，牛奶｝等已经略去，3 项统计为空，其中只有（啤酒、尿布、牛奶）出现了一次（表7.6 中的3 号记录），支持度小于0.4 则略去。

表7.7　单项统计结果

表7.8　双项统计结果

Apriori算法和DHP 算法得出的知识可解释如下（在DB Miner 软件中，由系统自动解释）：从单项统计中，看出80%的客户买了啤酒，80%的客户买了尿布。从双项统计中看出，60%的客户同时买了啤酒和尿布，40%的客户同时买了啤酒和牛奶，40%的客户同时买了尿布和爽身粉。还可观察到买了啤酒的客户中，又买了尿布的占0.6，0.6｛啤酒，尿布｝/0.8｛啤酒｝=0.75（称为信赖度）。

于是可得出下列6 条规则，其中S为支持度，C为信赖度。

R1：啤酒～尿布，S=0．6，C=0.6/0.8=0.75

R2：尿布～啤酒，S=0．6，C=0.6/0.8=0.75

R3：牛奶～啤酒，S=0．4，C=0.4/0.4=1

R4：啤酒～牛奶，S=0．4，C=0.4/0.8=0.5

R5：尿布～爽身粉，S=0．4，C=0.4/0.8=0.5

R6：婴儿爽身粉～尿布，S=0．4，C=0.4/0.4=1

KDD规则反映了商品之间的表面关系，但不一定是现实间的因果关系。规则是死的，人是活的，运用的妙处在于自己去实践和体会。例如，R6 有很高的信赖度，是相当合理并且可以解释的；R3 有很高的信赖度，将提示进一步的调查分析，而在本例中，是由数据太少而引起的失真所致。

2）分类规则挖掘举例

（1）面向评估函数的分类方法

各种评估工作实质上是分类，可以用KDD辅助评估，分类在KDD 中又称为“监督式分类”。下面以奖学金评奖为例子说明KDD挖掘分类知识的大致步骤：

·先画出一个训练数据库。例如，上次评估的结果或经评审委员公认的典型代表，应包括正反两面的例子，以作为训练数据集，见表7.9。(https://www.xing528.com)

表7.9　评奖项目训练数据

·在分析训练数据之后，发现评估结果与性别和年龄无关，删去这些无关字段。此步称为“特征选择”。

·KDD邀请评审委员参与，选择一个总分评估函数（又称为特征函数），Total=f（F1，F2，F3，…，Fn）；例如常用且最简单的是线性加权函数Total=∑PiFi，其中Fi为各条件量化值，Pi为加权值，而由加权值决定获奖等级。

·根据训练数据，例如A及类似A的学生应评为一等奖等。解方程式或迭代调整有效字段的加权值，使得在训练集中，各记录的∑PiFi刚好在应评等级的分数段中。

·用另一组或多组独立的测试数据来测试和修改公式Total=W。

·公式Total=∑PiFi就是从数据中“挖掘”出来的，其所分类的知识可以推广使用。

由此可见，KDD取得的规则是先从应用中得出的总结。

（2）面向决策树的分类方法

仍然用奖学金评奖为例。其要点如下：

·根据训练数据计算出各个字符的信息增益，它涉及较多的数学理论及复杂的熵理论公式。以计算“性别”的信息增益说明其来龙去脉：对于训练数据，保留“性别”和删除“性别”之后各计算一次信息增益；比较结果可知，“性别”字符值对提高分类精确度的贡献（信息增益）甚小。

·删除信息增益很小的字符，其余字符按照信息增益从大到小排序，以信息增益最大者为根结点，建立一棵决策树。在本例中为：品德→得奖量化值→成绩→论文数→体育等。

·从训练数据中挖掘出每一个结点的分类门限，例如在“品德”结点，为B则淘汰，为A则进入得奖量化值结点，以此类推。

·在测试数据中测试调整（结点次序和门限值）之后，即可应用于大量的学生评奖辅助决策。

为了便于了解，可以把决策树的结构和评估门限表示成易于了解的规则。

（3）群集分析

群集分析的基本思路为：一个具有K个字符的记录在KDD系统中被视为K维空间的一个点。在客户的参与下，对各个维度施以加权，而构造出一个K维空间的距离公式，例如，最简单欧氏空间距离。被分类的对象如同K 维空间中的天体，然后根据距离原则被划分为星系或星团。同一个对象集会，不同的距离表达了不同的观察角度，而有了不同的群集结果。

天文学家为了了解恒星的亮度和温度之间的关系，画了如图7.19所示的散布图。纵轴为衡量该恒星相对于太阳亮度的倍数，横轴则衡量恒星表面的绝对温度，即﹣273 ℃。

可以看到，众多的恒星落在3 个群集中，这3 个群集代表恒星在其生命周期中的3 个不同阶段。在每一个群集中，由于各个群集所产生的热度和光的基本程序不同，因此群集之间的亮度和温度的关系不同。80%的恒星落在主要序列中，它们产生能量的方式是以核融合将氢转化为氦。但经过100 亿年左右，恒星的氦元素就会耗尽。随后，根据恒星的质量不同，它会开始融合氦元素或停止融合。在停止融合后，这颗恒星的核心会开始崩溃。与此同时，外层的气体会向外扩张而远离中心，形成红巨星。最后，外层气体散去，剩下的中心开始冷却，这颗恒星就形成白矮星。

图7.19　散布图：将恒星依照温度和亮度来分群

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

数据挖掘方法在实际应用中的举例

相关推荐

数据挖掘方法在实际应用中的举例

相关文章：

相关推荐