首页 理论教育 数据挖掘的基本方法简介

数据挖掘的基本方法简介

时间:2023-05-23 理论教育 版权反馈
【摘要】:为了能从CRM客户数据中挖掘出对实际有用的关联,人们从统计学、人工智能和数据库等领域,借助基础研究的成果和工具,提出了许多办法。决策树可应用在监督式数据挖掘上,尤其是数据分类。3)人工神经网络人工神经网络用于分类、群集、特征挖掘、预测和模式识别。人工神经网络仿真生物神经网络,本质上是一个分散型或矩阵结构,它通过对训练数据的挖掘,逐步计算网络连接的加权值。

数据挖掘的基本方法简介

为了能从CRM客户数据中挖掘出对实际有用的关联,人们从统计学人工智能数据库领域,借助基础研究的成果和工具,提出了许多办法。

1)统计分析方法

统计分析方法主要用于完成知识总结和关系型知识挖掘。对关系表中各属性进行统计分析,找到它们之间存在的关系。在关系表的属性之间一般存在两种关系:第一种是函数关系(能用函数公式表示的确定性关系),例如电路中著名的欧姆定律,就是确定性关系,用V表示电压,R表示电阻,I表示电流,欧姆定律指出V=IR,3 个变量中有两个已知,另一个就可以精确地求出。第二种是相关关系,即不能用函数公式表示的关系,例如人的年龄与血压之间,这些变量之间存在着密切的关系,但不能由一个(或几个)变量的数值精确地求出另一个变量的值。

但确定性关系和相关关系之间并没有一道不可逾越的鸿沟。出于有测量误差等原因,确定性关系实际上往往通过相关关系呈现出来;当事物的内部规律被深刻了解时,相关关系又可能转化为确定性关系。对它们可采用回归分析、相关分析、主成分分析等设计分析方法。

2)决策

决策树可用于分类。利用信息论中的信息增益寻找数据库中具有最大信息量的字节,建立决策树的一个结点,再根据字段的不同取值建立树的分支。在每个分支子集中重复建立下层结点和分支,这样便生成一棵决策树。接下来还要对决策树进行剪枝处理,最后将决策树转化为规则,运用这些规则,可以对新事例进行分类。典型的决策树方法有“分类回归树”(Classification And Regression Trees,CART)、ID3、C4.5、卡方自动归纳法(Chi-Squared Automatic Induction)、卡方自动互动侦测器(Chi-Square Automatic Interaction Detector)等技术产生的有效模型。

决策树可应用在监督式数据挖掘上,尤其是数据分类。它们能够将训练模块的记录区分为独立的子群,而子群都有自己的规律。

3)人工神经网络

人工神经网络用于分类、群集、特征挖掘、预测和模式识别。人工神经网络仿真生物神经网络,本质上是一个分散型或矩阵结构,它通过对训练数据的挖掘,逐步计算网络连接的加权值。人工神经网络可分为下列3 种。

①前馈式网络。它以感应机、逆向传播模型、函数型网络为代表,可用于预测及模式识别等方面。

②反馈式网络。它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和最优化计算。(www.xing528.com)

自组织型网络。它以ART模型、Koholon模型为代表,用于群集。

人工神经网络具有分散型或储存信息、平行处理信息和进行推理、自我组织和自我学习等特点,解决了众多以往方法很难解决的问题。

它在多数应用中可以从训练数据组中学习,并产生归类和预测的模型。它也可以通过自我组织图(Self-Organizing Maps,SOMS)和相关结构,应用于非监督或数据挖掘和时间原则分析,其新的应用及结构正在快速增加中。

4)基因算法

基因算法用于分类、关系型规则挖掘等。基因算法模仿人工选择培育良种的思路,从一个初始规则集合(知识基因)开始,逐步通过交换对象成员(杂交、基因突变)产生群体(繁殖),评估并择优复制(物竞天择、适者生存、不适应者淘汰),优胜劣汰,逐代积累计算,最终得到最优化的知识集。

5)粗糙集

粗糙集用于数据简化(比如,删除与任务无关的记录或字段)、数据意义评估、对象相似性或共性分析、因果关系范式挖掘等。粗糙集理论由Z.Pawlak在20 世纪80 年代提出,用于处理不确定性。其主要思路如下:把对象的属性分为条件属性和决策属性,按各个属性值相同划分成等价类。条件属性上的等价类E 与决策属性上的等价类Y 之间有3 种情况:①下近似——Y包含E;②上近似——Y和E 的交集并非空集;③无关——Y 和E 的交集为空集。对下近似建立确定性规则,对上近似建立不确定性规则(含可信度),而无关情况下不存在规则。

6)联机分析处理技术(OLAP)

用具体图形将信息模式、数据的关联或趋势呈现给决策者,使客户能交互式地分析数据的关系,而OLAP 技术将人的观察力和智力融入挖掘系统中,极大地改善了系统挖掘的速度和深度。

“联机分析处理系统”是以多维数据库(Multi-Dimensional Data Bases,MDDS)为基础。多维数据库是数据的典型代表,使得用户能深入数据内涵,了解重要的结论,它对数据转化成信息或知识非常有帮助。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈