首页 理论教育 数据挖掘的功能:特征总结和关联分析

数据挖掘的功能:特征总结和关联分析

时间:2023-07-30 理论教育 版权反馈
【摘要】:通过对未来行为的预测,数据挖掘做出基于数据的抉择。数据挖掘的主要功能有:(一)数据特征总结和区分数据特征总结指的是提取汇总数据集的一般特征。(二)关联分析关联分析指的是总结数据库中海量信息的数据值的相关性。经常用到的两种数据挖掘技术是关联规则和序列模式。关联规则是对一个事件中的不同行为寻找行为相关性、建立数据项间的规则的过程。结合图书馆数据的特点,笔者选择关联分析功能,挖掘分析数据。

数据挖掘的功能:特征总结和关联分析

通过对未来行为的预测,数据挖掘做出基于数据的抉择。数据挖掘的主要功能有:

(一)数据特征总结和区分

数据特征总结指的是提取汇总数据集的一般特征。它通过多种不同的形式输出数据集的一般特征,图表是其最常用的形式。例如,汇总购买超市某类商品的顾客的特征。数据区分指的是通过比较目标对象和类比对象的特征,总结不同类对象的各异行为。

(二)关联分析

关联分析指的是总结数据库中海量信息的数据值的相关性。经常用到的两种数据挖掘技术是关联规则和序列模式。关联规则是对一个事件中的不同行为寻找行为相关性、建立数据项间的规则的过程。例如,在购物方面,男性和女性会买什么相同的商品;序列模式和关联规则有相似之处,寻找两个事件在时间上的关联性

(三)分类

我们在生活中经常用到分类技术,比如图书馆读者进行分类,从而构造分类模型,能够评估某类图书的借阅率。基于数据挖掘的分类技术能够将图书馆的读者分成不同的类型。我们以图书的借阅率为例,可以将图书馆的读者分为四类,即频繁借阅的读者、偶尔大量借阅的读者、稳定借阅的读者和其他。这样,图书馆的工作人员就可以知道不同类别读者的借阅特征。

(四)预测(www.xing528.com)

针对用户行为规律的特征,对某一用户未来可能要做的事或者对事件的发展趋势做出预见就是预测。预测销售活动效果是对预测最常见的应用。

(五)聚类

聚类指的是在不考虑目前已有分类的情况下区分数据类别。在机器学习方面,无监督学习是最常见的聚类应用。在不标定数据的情况下,按照差异区分它们,同时要保证它们在同一个分类中特征最大化相似。在不知道如何分类读者的情况下向他们推荐图书,我们就可以采用聚类对他们加以分类。

(六)孤立点分析

孤立点分析又叫局外者分析,指的是挖掘分析数据集中、特立独行的数据。它们产生于完全不同的行为机制。例如,我们可以根据孤立数据发现金融诈骗行为。

结合图书馆数据的特点,笔者选择关联分析功能,挖掘分析数据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈