首页 理论教育 局部保持投影:优化数据表达和分类的方法

局部保持投影:优化数据表达和分类的方法

时间:2023-06-19 理论教育 版权反馈
【摘要】:PCA建立的是数据的全局线性模型,是非常有效的数据表达方法,属于非监督学习算法。LDA是一种监督学习算法,其目的是寻找投影后可以使数据处于最佳可分离位置的投影方向,即投影后类内方差最小,类间方差最大。LDA得到的线性子空间的基是数据的类间散布矩阵相对于类内散布矩阵的最大特征值的广义特征向量,因此通常是非正交的。变换矩阵中的变换向量是流形上Laplace Beltrami算子的特征函数的离散最优线性逼近[45]。

局部保持投影:优化数据表达和分类的方法

在计算机视觉、机器学习和数据挖掘等领域,研究人员通常都会遇到的一个问题是待处理数据位于一个高维数据空间中(d维),直接在这个高维空间中处理数据不仅在计算负荷上不可行,而且难以获得鲁棒的处理结果。通常的做法是通过使用空间维数约简技术,在一个低维空间中求解问题。最为常用的两项线性维数约简技术是主成分分析PCA[115]和线性判别分析(Linear Discriminant Analysis,LDA)[116]。PCA通过寻找最小二乘意义下的最优数据投影方向,最终得到的是一个由数据的协方差矩阵的前k个最大特征值对应的特征向量(构成一组标准正交基)所张成的线性子空间(k≪d),这些特征值恰巧是主成分(原始数据投影到子空间后的系数)在对应的投影方向上的方差。PCA建立的是数据的全局线性模型,是非常有效的数据表达方法,属于非监督学习算法。LDA是一种监督学习算法,其目的是寻找投影后可以使数据处于最佳可分离位置的投影方向,即投影后类内方差最小,类间方差最大。LDA得到的线性子空间的基是数据的类间散布矩阵相对于类内散布矩阵的最大特征值的广义特征向量,因此通常是非正交的。

PCA和LDA都属于特征向量方法,用于描述高维数据中的线性变化,当被用来揭示数据的欧式结构时也是有效的。但是,如果数据本身来自嵌入在高维嵌套空间中的一个低维非线性子流形,上述方法就不能有效地揭示流形中蕴含的非线性结构,因此也就不适合这种情况下的探索性数据分析和模式聚类应用。

最近几年,为探索流形上的非线性结构,人们提出了一些非线性技术,如Isomap[44]、LLE[46]和Laplacian Eigenmap[45]等。但是,最近的研究发现,尽管这些非线性降维技术在理论上可以发现复杂的低维嵌入,而且在人造测试数据上产生了很好的效果,但是在很多实际的应用中,这些计算负荷很大的非线性技术并没有取得比传统的线性技术(PCA和LDA)更好的结果[117]。限制这些非线性流形学习方法在实际的计算机视觉应用中得到推广的一个更大的障碍是,它们只能产生定义在训练数据点集上的维数约简映射,却不能为新的测试点建立映射关系。(www.xing528.com)

LPP是一种新的线性维数约简技术[47],是对非线性的Laplacian Eigenmap的线性逼近。LPP通过建立数据点集之间的邻接图来包含流形上局部邻域内的邻接信息,在邻接图拉普拉斯化之后,可以计算出一个变换矩阵来将高维数据点映射到一个低维子空间中。变换矩阵中的变换向量是流形上Laplace Beltrami算子的特征函数的离散最优线性逼近[45]。下面是对LPP算法的简要描述。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈