首页 理论教育 高维数据流形学习方法:CMVM仿真实验结果

高维数据流形学习方法:CMVM仿真实验结果

时间:2023-11-24 理论教育 版权反馈
【摘要】:CMVM算法的效果将分别通过以下实验来验证。图7-5采用LDA、LPP、UDP、MVP和CMVM在FERET人脸图像的识别率与特征维数的变化曲线7.3.4.2CMU PIE人脸数据本次实验中,从原始的CMU PIE人脸数据库中截取的图像的尺寸是32×32。其中LDA方法在64维时得到最大识别率93.5%,LPP在数据降到72维时得到的最大识别率是95.0%,UDP、MVP和CMVM得到的最

高维数据流形学习方法:CMVM仿真实验结果

如前所述,一张图像可以看成高维流形空间中的一个点。如何从高维图像空间中提取最适合图像数据分类的信息和排除那些影响分类效果及计算代价的无用信息,将是我们实验所关注的工作。在整个实验部分,将CMVM方法与一些常见的特征提取方法(如LDA、LPP和UDP),以及与CMVM相关的算法最大差异投影(Maximum Variance Projection,MVP)进行比较。在同等的实验条件下,包括同样的训练集、同样的测试集和同样的参数设置,这些方法从相同的标准人脸数据(FERET、CMU PIE)和手写体数字(USPS)提取特征,然后采用最近邻分类器对提取的特征进行分类。这里需要说明的是,LDA、LPP、UDP、MVP和CMVM所提取的最佳特征都是通过广义特征值分解的方式得到的。在实验过程中,如果出现样本点的数目比样本的维数小的情况下,就可能产生小样本问题。所以在对原始的数据进行处理之前,必须采取必要的措施来解决数据可能面对的小样本问题,否则LDA、LPP、UDP、MVP和CMVM等特征提取方法将不能应用。我们采用PCA投影的数据预处理方式。即先通过PCA变换,将原始的数据映射到一个维数比较低的子空间,在这个子空间中就完全能够避免小样本问题。然后再利用这些特征提取方法从经过预处理后的数据里提取有效的特征。CMVM算法的效果将分别通过以下实验来验证。

7.3.4.1 FERET人脸数据

在本次实验中,我们从原始的FERET数据集中选取一些数据子集作为实验的训练样本和测试样本。在选定的数据子集中包含有200个人,每一个人有7幅图像,并且每幅图像的尺寸为40×50。

在实验过程中,从中任意选择4张图像作为训练样本,剩下的3张作为测试样本。在应用LPP、UDP、MVP和CMVM时,第一步都需要建立近邻图,所以选定k近邻标准来确定近邻点和建立近邻关系,这里假设k被设置为l-1,其中l是每类训练样本数。由于本次实验的训练样本为4个,所以对于FERET数据,设置k=3。在实验中设置近邻点数为k=l-1,其原因在于在假定每一类样本在原始数据空间聚集的很紧密的前提下,每一类样本中的每一个必须与其剩下的l-1个样本点相连接。本次实验的样本点为1400个,每一个样本的维数是6400,也就是说样本的维数远远大于样本的点数,在这种情况下,应用LDA、LPP、UDP、MVP和CMVM必然会出现小样本问题。采用PCA对数据进行预处理,先将原始的数据投影到一个6200维的数据子空间。然后分别采用LDA、LPP、UDP、MVP和CMVM分别从6200维的数据提取相应的特征,最后采用最近邻分类器来预测这些特征的类别。

表7-2给出了分别采用LDA、LPP、UDP、MVP和CMVM对经过预处理后的FERET数据进行特征提取后的识别结果。从表7-1中可以发现,在这几种特征提取方法中,CMVM算法能够得到最大的识别率。

表7-2 采用LDA、LPP、UDP、MVP和CMVM方法在FERET人脸数据的最大识别率及其相应的特征维数

图7-5表示分别应用LDA、LPP、UDP、MVP和CMVM方法对FERET人脸数据进行特征提取后识别率与特征维数的变化关系曲线。从图7-5中可以看出,对于所有的方法而言,随着特征维数的增加,数据的识别率也随着提高。但是,这种识别率提高的趋势并不总是保持不变的。当特征维数达到一定的数值时,这种趋势将逐渐变缓。例如,对于MVP算法,特征维数在92维以后,数据的识别率将不会随特征维数的变化而变化。而对于CMVM算法来说,特征维数在90维以后,数据的识别率随特征维数的增加还有一个缓慢的提高。但是CMVM方法的识别率曲线在一定特征维数之后就一直位于其他方法的识别率曲线之上。

图7-5 采用LDA、LPP、UDP、MVP和CMVM在FERET人脸图像的识别率与特征维数的变化曲线

7.3.4.2 CMU PIE人脸数据

本次实验中,从原始的CMU PIE人脸数据库中截取的图像的尺寸是32×32。并且实验数据时原始CMU PIE数据中的一个子集。即从每类样本数中选取170个样本,其中从170个样本中任意选取80个作为训练样本,剩余的90个作为测试样本。在构建近邻图时,一般根据训练样本的不同,来选择近邻点数,通常是近邻点数比训练样本数小1。但是由于训练样本的数目比较大,所以在用CMU PIE人脸数据进行实验时,在建立近邻图的过程中,选取的近邻点数为15。对建立起来的近邻图分别用LDA、LPP、UDP、MVP和CMVM算法进行特征提取,最后采用最近邻分类器来判别各种特征提取方法的分类效果。在应用最近邻分类器时,选取欧氏距离作为距离测度。(www.xing528.com)

图7-6显示了样本的特征维数和识别率之间的变化关系。从图7-6发现,针对不同的特征提取方法,数据的识别率与特征维数之间的变化关系呈现出不同的趋势。在刚开始的阶段,随着特征维数增加,数据的识别率急剧地提高。随后,随着特征维数的变化,不同特征提取方法的识别率展现不同的变化。对于LDA方法,当数据的识别率达到一定的程度后就保持不变。但是对于CMVM方法而言,数据的识别率将会出现小幅波动。而对于LPP、UDP和MVP三种方法,数据的识别率在达到其最大识别率并保持一段时间后会出现一定的下降趋势。其中,LDA的识别率曲线最稳定,CMVM的识别率曲线次之,而其他三种方法的识别率曲线的稳定性能就比较差。但是相比较其他四种方法,CMVM方法的识别率曲线在达到一定特征维数之后一直在最上面。

图7-6 采用LDA、LPP、UDP、MVP和CMVM在CMU PIE人脸图像的识别率与特征维数的变化曲线

从图7-6所示的结果只能大致地发现识别率与特征维数之间的变换关系,而不能精确地确定每一种算法能够实现的最大识别率。表7-3给出了CMU PIE人脸数据采用LDA、LPP、UDP、MVP和CMVM提取特征获得的最大识别率及其相应的特征维数。其中LDA方法在64维时得到最大识别率93.5%,LPP在数据降到72维时得到的最大识别率是95.0%,UDP、MVP和CMVM得到的最大识别率分别是94.8%、94.2%和97.1%,其对应的特征维数分别是68、68和76。结合表7-3和图7-6可以发现,在LDA、LPP、UDP、MVP和CMVM特征提取算法中,CMVM算法能够得到最好的识别效果,而且其最佳的识别效果也是相对稳定的。

表7-3 采用LDA、LPP、UDP、MVP和CMVM在CMU PIE人脸数据的最大识别率及其相应的特征维数比较

7.3.4.3 USPS手写体数据

USPS手写体数字包含有从“0”到“9”共10类数字,并且每一类数字有1100个样本,总共有11000个样本。本实验从每一类数据选取100个样本。并且这些样本都被截取成尺寸为16×16的图像,对每一幅图像都进行了归一化处理。从每类手写体数字的100个样本中任意选取50个作为训练样本,余下的50个作为测试样本。由于训练样本是500,而训练样本的维数是256,所以在应用这个数据集时,小样本的问题不会出现。可以直接采用LDA、LPP、UDP、MVP和CMVM从处理后的图像数据中提取特征。表7-4给出USPS手写体数据采用LDA、LPP、UDP、MVP和CMVM方法提取特征后获得的最大识别率及其相应的特征维数。

图7-7给出不同特征提取算法的识别率与特征维数之间的变化曲线。结合表7-4和图7-7,可以发现,在本实验所应用的特征提取方法中,CMVM方法不仅能够得到最高的识别率,而且在不同的特征维数时,相对于LDA、LPP、UDP和MVP,CMVM算法也能够保持相对较好的识别效果。

表7-4 采用LDA、LPP、UDP、MVP和CMVM方法在USPS手写体数字的最大识别率及其相应的特征维数比较

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈