图2-8 数据挖掘系统结构[11][75]
(2)数据挖掘基本方法简介
数据挖掘中包括决策树、遗传算法、神经网络、传统统计分析、关联规则、可视化技术、贝叶斯网络等多种方法。进行数据挖掘可采用一种算法,但更多情况下是采用多种算法的联合来解决具体的问题。下面将简要介绍几种在CRM中经常用到的算法,详细的介绍见后续章节的论述。
①决策树方法
它是一种简单的知识表示方法,它将事例逐步分类,代表不同的类别。由于分类规则是比较直观的,因而比较容易理解,这种方法一般限于分类任务。
决策树类似于流程图中的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或者是类的分布。决策树提供了一种类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险做出判断,决策树的基本组成部分是:决策节点、分支和叶子。决策树中最上面的节点称为根节点,是整个决策树的开始。决策树中的每个节点的下层子节点的个数与决策树使用的算法有关。如CART算法(Classification and Regression Trees,分类和回归树)得到的决策树的每个节点有两个分支,这种树就称为二叉树。允许节点含有多于两子节点的树称为多叉树。每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)。(www.xing528.com)
②神经网络技术
神经网络近来越来越受到人们的关注,因为它为人们解决大复杂度的问题提供了一种相对来说比较有效的简单方法,神经网络可以很容易地解决具有上百个参数的问题。
在结构上,可以把一个神经网络划分为输入层、隐含层和输出层(见图2-9)。输入层每个节点对应一个个的预测变量。输出层节点对应目标变量,可有多个。在输入层和输出层之间是隐含层,隐含层层数和每层节点的个数决定了神经网络的复杂度。
除了输入层的节点,神经网络的每个节点都与很多它前面的节点连接在一起,每个连接对应一个权重Wxy,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,我们把这个函数称为活动函数或挤压函数。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。