首页 理论教育 模糊聚类分析:探索数据间隐含关系

模糊聚类分析:探索数据间隐含关系

时间:2023-06-27 理论教育 版权反馈
【摘要】:例7.6.14环境单元分类问题。表7.6.6污染数据取论域X={x1,x2,x3,x4,x5},按式“规格化”,取c=0.1,再按式求相似系数,得到模糊相似矩阵3.聚类对模糊相似矩阵聚类可以用三种方法。图7.6.14动态聚类图当λ=1时,分成五类:{x1},{x2},{x3},{x4},{x5}。2)直接聚类法根据模糊相似矩阵来直接由相似类求等价类。

模糊聚类分析:探索数据间隐含关系

模糊聚类分析在实际问题中有广泛的应用,这是由于实际问题中,一组事物是否属于某一类常带有模糊性,也就是问题的界限不是十分清晰的时候,我们不能明确地回答“是”或“否”,而是只能作出“在某种程度上是”的回答,这就是模糊聚类分析。

本节主要讨论基于模糊等价关系的动态聚类的实际应用。

1.特征抽取

2.建立X上的模糊关系(模糊相似矩阵

设待分类对象的全体是X={X1,X2,…,Xn},我们首先要鉴别X中的元素Xi与Xj的接近程度(相似程度)。用[0,1]中的数rij来表示Xi与Xj的相似程度,称为相似系数。相似系数组成一个矩阵(rijn×n称为相似系数矩阵,它是X上的模糊相似关系.我们对此关系矩阵求其等价闭包或等价类,就能对X中的元素进行聚类。

为了确定相似系数,必须使相似系数符合自反、对称的要求,可根据实际情况选用下列方法之一。

其中M为适当选择的常数,M的选择使rij∈[0,1]。

7)非参数法

中负数的个数,有

当p=2时,dp就是欧氏距离,此时有

9)经验法

请有经验的人来分别对xi与xj相似性打分,设有s个人参加评分,若第k个人(1≤k≤s)认为xi与xj相似的程度为(在[0,1]中),他也对自己评分的自信度打分,若自信度分值是,则可以用式(7.6.48)来计算相似系数

在以上确定相似系数的诸多方法中,究竟选用哪一种合适需要根据问题的具体性质来决定。

例7.6.14 环境单元分类问题。

每个环境单元可以包括空气、水分、土壤、作物等四个要素。环境单元的污染状况由污染物在四要素中含量的超限度来描写。

假设有五个单元x1,x2,x3,x4,x5,它们的污染数据如表7.6.6所示。

表7.6.6 污染数据

取论域X={x1,x2,x3,x4,x5},按式(7.6.30)“规格化”,取c=0.1,再按式(7.6.46)求相似系数(取c=1),得到模糊相似矩阵

(www.xing528.com)

3.聚类

对模糊相似矩阵聚类可以用三种方法。

其动态分类如图7.6.14所示。

图7.6.14 动态聚类图

当λ=1时,分成五类:{x1},{x2},{x3},{x4},{x5}。

当λ=0.8时,分成四类:{x1,x3},{x2},{x4},{x5}。

当λ=0.6时,分成三类:{x1,x3},{x2},{x4,x5}。

当λ=0.5时,分成二类:{x1,x3,x4,x5},{x2}。

当λ=0.4时,分成一类:{x1,x2,x3,x4,x5}。

2)直接聚类法

根据模糊相似矩阵(7.6.49)来直接由相似类求等价类。

当λ=1时,该矩阵只有对角线上的元素为1,所以不需归相似类,所得到的的等价类为{x1},{x2},{x3},{x4},{x5}。

当λ=0.8时,先求经典矩阵R0.8,由此求得它的相似类是

在归并时,找不到与{x1,x3}相交的其他等价类,于是的等价类为{x1,x3},{x2},{x4},{x5}。

同样λ=0.6时,相似类为R0.6[x1]={x1,x3},R0.8[x2]={x2},R0.8[x4]={x4,x5},也无法再进一步归并,于是的等价类为:{x1,x3},{x2},{x4,x5}。

当λ=0.5时,相似类为R0.5[x1]={x1,x3,x4},R0.5[x2]={x2},R0.5[x4]={x1,x4,x5},因此可以把相似类R0.5[x1]与R0.5[x4]归并,得P 1(x1)=R0.5[x1]∪R0.5[x4]={x1,x3,x4,x5}最终得到的的等价类为{x1,x3,x4,x5},{x2}。

当λ=0.4时,得到R0.4[x2]={x2,x5},于是可以和P 1(x1)归并,即P2(x1)={x1,x2,x3,x4,x5},这就是的等价类。

3)最大树法

从λ=1开始逐步作连通图,直到λ=0时为止,每作一条边,就在边上写出rij之值(连通强度)。注意不要作回路。从原则上来说,可以选择任一元素(顶点)作为起始点,但一般总是选有相似类的元素作为起始点。例如在本例中,当λ=0.8时,就有相似类{x1,x3},于是就把x1选为起始顶点,先作出强度为λ=0.8的边,然后再作强度为0.6的边及强度为0.5和0.4的边,这样就得到最大树,如图7.6.15所示。

图7.6.15 最大树

在不同λ水平上的分类,就是在最大树中砍去那些强度小于λ的边,再分类.例如λ=0.8时,砍掉最大树右边的各枝,显然就得到分类:{x1,x3},{x2},{x4},{x5};而在λ=0.6时,只砍掉强度为0.5和0.4的边,于是得到的分类就是:{x1,x3},{x2},{x4,x5}。

应该指出,用模糊等价关系矩阵来分类(或用等价类分类),所依据的矩阵已经不是原来的矩阵了,这样分类必然带来误差。作者在1983年提出应求相似阵的最小距离的传递阵,再依据来分类。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈