无监督学习中的聚类处理及方法详解

时间：2026-01-27 理论教育 Jonker 版权反馈

【摘要】：无监督学习就是采用没有标签的训练数据进行学习，最主要的无监督学习方法是聚类的方法。图1-7 聚类处理的过程图1-7中聚类处理过程的主要有四个步骤：特征选择/特征提取、聚类算法设计或选择、聚类验证、结果阐述。聚类算法设计或选择中因为聚类是普遍存在的，且已有大量的聚类算法被开发出来用于解决具体领域中的不同问题。因为给定一个数据集，不管是否存在结构，每个聚类算法都能产生一个划分。

无监督学习就是采用没有标签的训练数据进行学习，最主要的无监督学习方法是聚类的方法。可以用公式描述为^[31]：

设X是聚类集，即X=（x₁，x₂，…，x_n），定义X的m聚类集合Ω，将X分割成m个集合（聚类）C₁，…，C_m，使其满足下面三个条件：

C_i≠φ，i=1，…，m；

U^m_i=1Ci=X；

C_i∩C_j=φ，i≠j，i，j=1，…，m；

聚类的处理过程如图1-7所示^[33]。(https://www.xing528.com)

图1-7 聚类处理的过程

图1-7中聚类处理过程的主要有四个步骤：特征选择/特征提取、聚类算法设计或选择、聚类验证、结果阐述。其中特征选择/特征提取是利用一些变换从原始的特征中产生有用和新型的特征。聚类算法设计或选择中因为聚类是普遍存在的，且已有大量的聚类算法被开发出来用于解决具体领域中的不同问题。但是不存在一种聚类算法可以普遍用于解决所有问题。在技术层面上，开发一个统一的关于聚类推理和多种聚类方法的框架是非常困难的。聚类验证是必须的。因为给定一个数据集，不管是否存在结构，每个聚类算法都能产生一个划分。此外，不同的方法通常会导致不同的聚类；即使是相同的算法，参数辨识或输入模式的呈现顺序也可能影响最终的结果。因此，提供有效的评价标准和准则是十分重要的，因为它为用户提供一种置信度，这种置信度来自于其使用算法产生的聚类结果。聚类结果分析必须要符合实际应用。聚类的最终目标是从原始数据中为用户提供有意义的见解，使他们能够有效地解决遇到的问题。因此利用相关领域专家解释数据划分，进一步的分析甚至实验可能要求保证提取知识的可靠性。

常用的聚类方法有：基于层次自聚类的重心法（Centroid Linkage），BIRCH层次聚类算法（Balanced Iterative Reducing and Clustering using Hierarchies），CURE算法（Clustering Using REpresentatives），ROCK算法（RObust Clustering u-sing linKs）等；基于矢量量化的K均值聚类算法（K-means），迭代自组织数据分析法（Iterative Self-Organizing Data Analysis Technique，ISODAT）等；基于混合密度估计的高斯混合密度降解模型（Gaussian Mixture Density Decomposition，GMDD）；基于图类的Delaunay三角剖分图（Delaunay Triangulation Graph，DTG），高连接子图（Highly Connected Sub-graphs，HCS），集群近似搜索技术（ClusterAffinity Search Technique，CAST）；基于神经网的学习矢量量化（Learning Vector Quantization，LVQ），自组织特征映射模型（Self-Organizing Feature Map，SOFM），超椭球聚类网（Hyper-Ellipsoidal Clustering network，HEC）等；基于大型数据集的算法有基于密度的噪声应用空间聚类（Density-Based Spatial Clus-tering of Applications with Noise，DBSCAN），基于密度分布函数的聚类算法（DENsity-based CLUstEring，DENCLUE）等。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

无监督学习中的聚类处理及方法详解

相关推荐

无监督学习中的聚类处理及方法详解

相关文章：

相关推荐