首页 理论教育 不同聚类算法对Kmeans++聚类结果的影响

不同聚类算法对Kmeans++聚类结果的影响

时间:2023-06-09 理论教育 版权反馈
【摘要】:课题组选择Kmeans++聚类算法,而聚类分析包括层次聚类、密度聚类等其他的聚类算法,使用不同的聚类算法对最终的聚类结果会产生一定的影响。

不同聚类算法对Kmeans++聚类结果的影响

本书主要是提供了动态综合评级方法的一些扩展思路,主要是函数型数据下的综合评价过程。从离散的指标取值转化为函数,基于指标函数得出权数,然后将指标函数加权得到评价函数,最后将评价函数转化为一个评价值。整个过程通过Matlab编程得以实现,这使得整个评价过程模式化,有利于综合评价的实践者进行具体的综合评价活动。对函数型主成分分析、函数型聚类分析方法做了一些新的扩展研究,为函数型综合评价提供了一些思路。

当然,函数型数据下的综合评价问题并不局限于上述研究内容,具体如下:

(1)基于函数型多元统计方法的集成,本书从函数型多元统计分析方法的角度出发,直接将多元函数指标数据“压缩”成我们需要的评价函数。这里主要讨论多元函数型主成分分析方法(MFPCA)在综合评价中的应用。首先将函数型主成分分析(FPCA)进行多元函数型主成分分析的研究,然后定义主成分得分函数(一般取第一主成分)并将其用到综合评价中,生成我们需要的评价模型。但是第一主成分只在几何位置分布上,是使数据离差最大的方向,但从评价本身的意义来看,并不一定是系统最重要的特征方向,所以可以考虑基于重要性加权的多元函数型主成分分析用于综合评价中,所以基于重要性加权的多元函数型主成分分析的公式推导和程序编写是该部分进一步研究的问题。

(2)综合评价的最终目的是排序或分类,所以多元函数型聚类分析可以用于函数型数据下的综合评价的集成,多元聚类分析在动态综合评价中的应用鲜少有人研究,所以这对于本书是一个巨大的挑战。从公式的推导、程序编写以及聚类结果的综合评价解读都是未来需要解决的问题。第一,课题组提出的方法虽然能够达到同时测度函数型数据数值距离和曲线形态的目的,但是计算复杂度相比于传统的相似性测度方法要高不少,课题组使用多进程和多线程对所编辑的python代码进行一定的速度提升,但耗时仍然不低,因此需要对此进行进一步优化。第二,课题组是从目前函数型聚类分析研究中主要关注的相似性度量出发进行的方法改进,这也是目前很多学者在将传统聚类分析应用于面板数据时所关注的改进点。但是除了相似性度量这个角度外,还可以像传统聚类在划分聚类、层次聚类之后提出的基于图论的聚类等方法一样,从聚类的方法角度出发,进行函数型聚类方法的改进,不再限于传统的聚类框架中。第三,对于多指标函数型聚类,由于现有的研究非常少,课题组仅能从多指标面板数据聚类的角度出发,将其拓展至函数型领域,将多指标函数型聚类转化为多指标综合的问题,然而对于多指标函数型聚类分析是否有更好的方式,以及对多指标函数型聚类结果的解释问题,还需要进一步的研究。第四,在实证分析中,为研究过程的统一性,在很多地方对于一些聚类算法的选择、参数的选择以及聚类评价方法的选择比较统一。课题组选择Kmeans++聚类算法,而聚类分析包括层次聚类、密度聚类等其他的聚类算法,使用不同的聚类算法对最终的聚类结果会产生一定的影响。参数方面,由于课题组采用的是上证50股票样本,样本数量本身不是很大,因此聚类簇的个数被控制在3—8组,若将股票池扩大至所有A股的3000多只股票,则聚类簇的个数可能能够更加的灵活,但是计算量也会有很大的增加。聚类评价方法除了轮廓系数外,还有DB指数、Dunn指数等很多其他评价标准。(www.xing528.com)

(3)函数型数据经过多年的发展,逐渐渗透到各个领域的科学研究中,例如,模糊数据被看成函数型数据,SVM用于函数型数据的分类研究等,这些对于综合评价的研究也提出了新的挑战,所以项目组拟尝试将新的思想逐步渗透到综合评价的研究中。新的思想如何融入函数型数据下的综合评价问题中,是未来需要解决的问题。

(4)综合评价结果(评价函数)的分析,函数型的评价结果在实际中往往有它特殊的含义,例如义乌小商品指数、消费者物价指数(CPI)等都是函数型综合评价结果,对于这些综合排序指数进行的函数型数据分析(FDA),可为职能部门制定政策提供相应的理论依据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈