首页 理论教育 基于聚类的离群点挖掘在新能源汽车大数据分析中的应用

基于聚类的离群点挖掘在新能源汽车大数据分析中的应用

时间:2023-08-19 理论教育 版权反馈
【摘要】:基于聚类的离群点挖掘的时间和空间复杂度都是线性或接近线性的,因此算法具有高效的性能。由于每种聚类算法只适合特定的数据类型,而簇的质量对该算法产生的离群点的质量影响非常大,因此实际应用中应当谨慎地选择聚类算法。此外,聚类过程是对所有样本进行聚类,因此可能同时发现簇和离群点。

基于聚类的离群点挖掘在新能源汽车大数据分析中的应用

1.理论基础

聚类分析是用来发现数据集中强相关的对象组,而离群点诊断是发现不与其他对象组强相关的对象。因此,离群点诊断和聚类是两个相对立的过程。如果在聚类的结果中,某个簇的点比较少,且中心距离其他簇又比较远,则该簇中的点是离群点的可能性就比较大,因此从这个角度将聚类方法用于离群点诊断也是很自然的想法。

如上所述,我们已经了解了相关聚类方法,比如K-means、层次聚类等方法。它们都有一定的异常处理能力,但主要目标是产生聚类,即寻找性质相同或相近的记录并归为一类,这不同于离群点挖掘的目的和意义。

利用聚类方法诊断离群点的一种系统的方法是,首先聚类所有的对象,然后评估对象属于簇(Cluster)的程度。对于基于原形的聚类,可以用对象到它的簇中心的距离来度量对象属于簇的程度。更一般地,对于基于目标函数的聚类技术,可以使用该目标函数来评估对象属于任意簇的程度。参考文献给出了基于聚类的离群点的定义:如果一个对象不强属于任何簇,则称该对象是属于聚类的离群点。

定义:假设数据集D被聚类算法划分为k个簇C={C1C2,…,Ck}。对象p的离群因子(Outllei-Factor)OF3(p)定义为p与所有簇间距离的加权平均值

基于该定义,进行基于聚类的离群点诊断步骤过程如下:(www.xing528.com)

①对数据集D采用聚类算法进行聚类,得到聚类结果C={C1C2,…,Ck}。

②计算数据集D中所有对象p的离群因子OF3(p),及其平均值Ave_OF和标准差Dev_OF,满足条件OF3(p)≥Ave_OF+βDev_OF(1≤β≤2)的对象判定为离群点,这里β为设定的阈值

基于聚类的离群点挖掘的时间和空间复杂度都是线性或接近线性的,因此算法具有高效的性能。但另一方面,产生的离群点集合它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性。由于每种聚类算法只适合特定的数据类型,而簇的质量对该算法产生的离群点的质量影响非常大,因此实际应用中应当谨慎地选择聚类算法。

2.优点与缺点

有些聚类技术(如k均值)的时间和空间复杂度是线性或接近线性的,因而基于这种算法的离群点检测技术可能是高度有效的。此外,聚类过程是对所有样本进行聚类,因此可能同时发现簇和离群点。在缺点方面,产生的离群点集和它们的得分可能非常依赖所用的簇的个数。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈