首页 理论教育 大数据挖掘的任务和意义

大数据挖掘的任务和意义

时间:2023-06-24 理论教育 版权反馈
【摘要】:值得指出的是,面向高价值、低密度的大数据集,除了上述数据挖掘任务外,特异群组分析是一类新型的大数据挖掘任务。对“异常”数据的分析称为“异常分析”。这是一种大数据环境下的新型数据挖掘任务,将在第7章做详细介绍。

大数据挖掘的任务和意义

数据挖掘在自身发展的过程中,吸收了数理统计数据库人工智能中的大量技术。从挖掘的主要任务角度看,大数据挖掘任务仍然包含传统的五大类数据挖掘任务[6],但是,从技术角度看,针对大数据集的特点、大数据应用的需求,每一类任务都有扩展。以分类分析任务为例,分类分析是一种有监督的(或半监督的)挖掘技术,即需要有标签的训练集以指导分类模型的构建。在大数据环境下,我们拥有多源融合的、规模巨大的数据集,为数据挖掘积累了更丰富的数据基础。但是,现实情况是数据集中更多的数据是没有经过专家打好标签的。例如,高血压危险因素分析中,将包含有大量因为没有出现高血压症状而没有就医的人群,但是从其健康档案记录或者其他就医记录中已隐藏了潜在的高血压危险因素。这需要有新的大数据分类方法,在训练过程中综合利用较少的有标签样本和较多的无标签样本进行学习,降低对数据进行人工标注的昂贵开销,这就是新的分类分析任务。

值得指出的是,面向高价值、低密度的大数据集,除了上述数据挖掘任务外,特异群组分析是一类新型的大数据挖掘任务。

下面仅给出各个挖掘任务的定义,更详细的将在后续各个章节进行介绍。

(1)关联分析:寻找数据项之间的关联关系。例如:我们可以通过对交易数据的分析可能得出“86%买‘啤酒’的人同时也买‘尿布’”这样一条“啤酒”和“尿布”之间的关联规则。

(2)聚类分析:根据最大化簇内的相似性、最小化簇间的相似性的原则将数据对象集合划分成若干个簇的过程。例如:我们可以通过对电子商务网站用户的注册数据和购买行为数据的分析,划分消费者的消费层次为节约时间型消费、冲动型消费、价格敏感型消费、品牌忠诚型消费等。

(3)分类分析:找出描述并区分数据类的模型(可以是显式或隐式),以便能够使用模型预测给定数据所属的数据类。例如:P2P网贷平台可以将贷款人的信用等级分类为:AA(信用水平最高级,代表极低的违约率)、A、B、C、D、E、HR(低信用水平,潜在的违约风险最高级)。分类分析通过对这些数据及其类标签的分析给出一个信用等级的显式模型,例如:“AA级贷款者是年收入在×××元到×××元,年龄在×××至×××,居住面积达×××平方米以上的人”。这样,对于一个新提交信用审核申请的贷款人,就可以根据他的特征预测其信用等级。(www.xing528.com)

(4)异常分析:一个数据集中往往包含一些特别的数据,其行为和模式与一般的数据不同,这些数据称为“异常”。对“异常”数据的分析称为“异常分析”。例如,在对银行客户信用卡刷卡记录数据进行监测的过程中,发现某一笔交易明显不同于以往的消费模式。

(5)演变分析:描述时间序列数据随时间变化的数据的规律或趋势,并对其建模。包括时间序列趋势分析、周期模式匹配等。例如:通过对交易数据的演变分析,可能会得到“89%的情况下,股票X上涨一周左右后,股票Y会上涨”这样一条序列知识,或者通过对股票某一历史交易时间区间的价格变化情况,可以预测出下一交易日的价格。

(6)特异群组分析:发现数据对象集中明显不同于大部分数据对象(不具有相似性)的数据对象(称为特异对象)的过程。一个数据集中大部分数据对象不相似,而每个特异群组中的对象是相似的。这是一种大数据环境下的新型数据挖掘任务,将在第7章做详细介绍。

需要说明的是,无论数据挖掘技术如何发展变化,相似性依然是数据挖掘技术的核心。在关联分析中,频繁模式挖掘可能涉及模式间的模糊匹配,这需要定义模式间的相似性度量;聚类分析的关键是定义对象间的相似性,以及探索簇间对象的相似性,因为聚类分析是根据对象之间是否相似来划分簇的;分类分析也是基于相似对象赋予同一类标签的思想,对数据对象进行分类的;异常分析虽然是找到相异于大部分数据对象的少部分数据对象,但是,如何判断少部分对象不同于其他对象,这也离不开相似性;特异群组分析仍然是基于对象是否相似而开展的,只是目的是发现那些不同于大部分不相似对象的相似对象的集合;演变分析本身就是发现时间序列中有相似规律的片段用以预测,这也需要相似性的支撑。可以看到,相似性是任何一种数据挖掘任务的核心。关于相似性已经有很多研究,然而,相似性总是根据应用场景、用户需求的差异而有所不同,这就形成了目前还没有一种相似性度量能够适用于任何场合的现象。因此,我们会看到每一种数据挖掘任务都有许多种挖掘算法,尤其是聚类分析。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈