首页 理论教育 高维数据流形学习分析提纲及NDML模型

高维数据流形学习分析提纲及NDML模型

时间:2023-11-24 理论教育 版权反馈
【摘要】:在此基础上,将式写成矩阵形式:所以在低维投影空间内,可以将多流形局部几何结构信息度量为:7.5.2.3线性降维为了克服流形学习方法所存在的样本外点问题,在高维样本数据和其低维映射之间引入线性变换关系Y=ATX,因此式和式可分别改写为:NDML方法希望找到一个低维子空间,在保持多流形局部几何结构信息的基础上,实现基于异类最近邻的多流形度量最大化。表7-9NDML算法提纲

高维数据流形学习分析提纲及NDML模型

NDML方法从多流形局部学习的角度,建立一种基于最近异类距离作为多流形相似度度量。对于数据分类,如果能找到一个低维投影空间将异类最近邻数据进行区分,那么其他异类数据在该低维空间内将更加容易识别。因此下面将定义基于异类最近邻的多流形相似度度量。

7.5.2.1 基于异类最近邻的多流形相似度度量

对于任意一个样本点,选择其k个异类近邻点,建立该样本点与其异类近邻点均值的方差矩阵,然后对每一个样本点重复这一过程,获得基于异类最近邻的多流形相似度度量,表示如下:

从式(7.44)中可以总结出所定义的基于异类最近邻的多流形相似度度量有三个特点。表述如下:

①基于异类最近邻的多流形相似度度量是一种非参数化定义。

在该定义中,并不是所有样本点的均值,而是其局部异类最近邻点的均值用来量化多流形相似度度量,因此该多流形相似度度量的定义使用了局部学习或非参数化学习的策略。LDA方法应用到具有统一高斯分布的数据时显示了比较好的特征降维效果。但是面对非高斯分布的数据时,LDA方法就暴露出了其应用缺陷。但是基于异类最近邻的多流形相似度度量就自然而然地避免了这个问题,因为从局部学习的多流形相似度度量根部不需要考虑样本数据的概率分布问题。另外,很多流形学习方法通过流形局部结构保持体现了很好的特征降维效果,因此基于异类最近邻的多流形相似度度量的非参数化定义将有助于很好地学习高维数据中局部结构信息,从而更好地为多流形判别学习服务。

②基于异类最近邻的多流形相似度度量是一种监督学习定义。

基于异类最近邻的多流形相似度度量的定义中充分利用样本数据的类别标签信息。在传统的流形学习方法中,最近点的选择仅仅是利用各种距离作为测度。但是在所提出的多流形相似度度量中,不仅仅是距离,而且样本数据的类别信息都被用来作为选择近邻点的标准。换句话说,所提出的多流形相似度度量是建立在异类k近邻点之间的而非同类近邻点之间的。因此所提出的多流形相似度度量的定义也提供了样本数据之间的判别信息,通过最大化异类最近邻的多流形相似度度量将有利于在低维空间内实现数据分类。

③基于异类最近邻的多流形相似度度量是一种极值型定义。

在基于异类最近邻的多流形相似度度量的定义中包含了任意样本点与其异类近邻点均值之间的最小距离。对于任意样本点而言,有多种形式的近邻点包括同类最近邻点,异类最近邻点和不考虑类别信息的最近邻点。但是在所提出的多流形相似度度量的定义中,仅仅是选择其异类最近邻点。其原因在于通过选择异类近邻点一方面能度量多流形之间的离散度,另一方面建立基于样本点与其异类近邻点均值之间的最小距离模型更有利于寻找最佳分类子空间。换言之,如果在一个低维映射空间内,能将任意样本点与其最近的异类样本点区分开,那么该样本点与其他的异类样本点将更容易区分和识别。

7.5.2.2 基于LLE的局部几何结构信息度量

在原始的LLE方法中,任意样本点都可以由它的k个近邻点进行线性表示,并且要求线性重构误差最小,表示如下:

对所有样本点,重复式(7.46),可以得到最小线性重构权值矩阵W。在此基础上,将式(7.46)写成矩阵形式:(www.xing528.com)

所以在低维投影空间内,可以将多流形局部几何结构信息度量为:

7.5.2.3 线性降维

为了克服流形学习方法所存在的样本外点问题,在高维样本数据和其低维映射之间引入线性变换关系Y=ATX,因此式(7.44)和式(7.48)可分别改写为:

NDML方法希望找到一个低维子空间,在保持多流形局部几何结构信息的基础上,实现基于异类最近邻的多流形度量最大化。所以可以通过建立以下目标函数来进行降维:

采用拉格朗日数乘法,可以将上式目标函数求解问题转换为如下广义特征值分解问题:

从式(7.52)中可以得出结论,线性转换矩阵A由以上公式广义特征值分解得到的最大d个特征值对应的特征向量得到,通过线性转换例如Yi=ATXi得到低维线性嵌入。

基于以上分析,NDML算法的提纲可以总结如表7-9。

表7-9 NDML算法提纲

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈