在大部分基于图拉普拉斯特征谱嵌入方法包括LPP、UDP和MFA所建立的近邻图中,权值之间设置为0/1或者热核函数值,但是这些权值对于数据分类而言并不具有判别性。因此在正交判别分析方法中,将结合原始数据的近邻关系和类别相似性,建立如下的判别权值函数模型:
图5-1中,S1标记两个数据点是同类近邻点的权值,S2标记两个数据点是异类近邻点的权值,S3标记两个点非近邻点的权值。从图5-1中可以推断判别权值函数模型具有如下特点:
①判别权值函数模型使得目标函数更优化。
对应不同的权值曲线,当自变量相同时,同类近邻点的权值大于异类近邻点的权值。一方面,在图拉普拉斯特征谱嵌入方法中,近邻图中的权值表示两个近邻点之间的相似性,因此同类近邻点比异类近邻点具有更大的相似度,导致基于同类近邻的局部散度大于基于异类近邻的局部散度。图拉普拉斯特征谱嵌入方法通过最小化局部散度来实现数据在低维空间的判别分析,如果存在一个投影子空间,能使得同类近邻局部散度最下化,那么该投影子空间也必将使得基于异类近邻的局部散度更小。另一方面,相对于热核函数权值模型,判别权值函数中的同类近邻点的权值保持不变,异类近邻点的权值变小,导致局部结构散度也必然变小。因此从目标优化的角度而言,该权值函数模型比热核函数权值模型具有更好的判别性能。
②判别权值函数模型使得目标函数更鲁棒。
图5-1 权值函数图
无论是同类近邻点还是异类近邻点,判别权值函数模型的权值的取值范围都始终位于区间[0,1]。如果在原始数据中存在噪声或者奇异点,一方面,这些噪声点或者奇异点与其他数据点的权值取值范围都控制在[0,1]之间,不可能因为噪声点或者奇异点的介入而出现大的权值,从一定程度削减了噪声或者奇异点对高维数据局部几何结构信息学习的影响。另一方面,噪声点或者奇异点可能与干净数据点的距离很大,在判别权值函数图中,权值基本上随着距离的增大而减小,离干净点的距离越大,就意味着该点是噪声点或者奇异点的可能性也越大,通过权值函数映射,得到权值就越小,即两个点的相似性越小,也能消除噪声或奇异点的影响,提高目标函数模型的鲁棒性能。
③判别权值函数模型对参数更依赖。
判别权值函数模型不仅是两个数据点欧氏距离的函数,同时还是调节参数β的函数。对于任何已经知道的数据集,数据点对之间的欧式距离就已经确定,但是如何调节参数β,获得更具有判别性的权值,目前并没有已经存在的标准,往往需要通过经验指导,针对不同的数据集设置不同参数值。
确定具有判别性的权值函数后,可以分别建立基于判别权值函数模型的局部散度矩阵S′L和全局散度矩阵,分别计算如下:
(www.xing528.com)
为了寻找一个同时具有最大全局散度矩阵和最小局部散度矩阵的低维投影子空间,可以建立基于散度矩阵迹商和迹差两种函数模型。但是为了避免小样本问题,因此选择散度矩阵迹差的函数模型:
同时,为了调节不同散度的贡献,将以上函数改变成线性组合的形式:
在线性投影矩阵满足正交化的约束下,可以建立基于式(5.19)的约束目标函数模型,表示如下:
该目标函数的解可以推导为如下特征值分解中前几个较大的特征值所对应的特征向量:
因此,根据以上算法模型推理,正交判别投影的算法提纲如表5-1所示。
表5-1 ODP方法提纲
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。