首页 理论教育 主成分分析降维方法原理-建筑工程投标决策组合模型研究成果

主成分分析降维方法原理-建筑工程投标决策组合模型研究成果

时间:2023-09-22 理论教育 版权反馈
【摘要】:主成分分析法原理基于K-L正交变换,以线性相关为基本条件,这要求这种计算方法所处理的数据之间的关系必须是线性的。

主成分分析降维方法原理-建筑工程投标决策组合模型研究成果

基于线性特征提取算法适合处理复杂结构的数据。这类方法因其算法原理简单、计算简洁,具有计算速度快等特点,广泛应用于数据降维[112]。其计算原理是在高维非线性数据空间中找到低维的线性子空间,并将高维数据降维处理到该子空间中。主成分分析法就是一种经典的线性特征提取算法。

3.1.1 K-L正交变换

主成分分析法简单来说就是一种K-L变换,它是通过变换将高维空间中的数据映射到低维空间中[113]

K-L变换是一种正交变换,即将在一种坐标系统中的一个向量a表示为用在另一种坐标系中,而这一新的坐标系由基向量组成。K-L变换的系数可用如下步骤求出[114]

(1)定义随机向量A的自相关矩阵为P=E(AAT),由于样本集中不包含种类信息,所以它的总体均值向量μ通常是无实际意义的,因此,可以将数据的协方差矩阵Σ=E[(a-μ)(aμ)T]作为K-L变换的衍生矩阵,其中μ是总均值向量。

(2)求协方差矩阵的特征值λ和相应的特征向量β,构成关系如下:

B=(β123,…βn),i=1,2,……,n。

(3)系数矩阵即为a=BTA。K-L变换实际是通过简单的线性变换将信息量较少的向量删除,将信息量较多的向量组成一个新的向量空间。

在影响因素的识别中,假若全部影响因素组成的空间图像大小为m×n维,将图像按照列的方式首尾相连排列,得到的列向量C=m×n,C即为影响因素空间图像的维度

设有M个影响因素,xk∈PC×1,k=1,2,……,M表示第k个影响因素,其协方差矩阵为:

式(3.1)中总体均值向量,表示总体影响因素的平无均值。

假设X=(A1-μ,A2-μ,……,AM-μ),则协方差矩阵∑=XXT是C×C维的。由K-L变换可知,新映射坐标由XXT的非零特征值所对应的特征向量构成,而XXT是C×C维的,直接求取特征值计算量过大,此时可以利用奇异值分解原理,用XTX的特征值对应的特征求解XXT对应的特征值及其特征向量。求解方法如下:

设矩阵XTX对应特征值为i(i=1,2,……,n),特征向量为ηi,则原矩阵的正交特征向量为:

式(3.2)求出的μi就是协方差矩阵XXT的特征向量。再按由大到小的顺序将矩阵的特征值进行排列λ1≥λ2≥λ3≥...≥λn≥0,每个特征值所对应的特征向量为,则经过i=KL变换得到的映射空间向量为μ1,μ2,……,μn。为了更好地提取特征值,可以选取前r个最大的特征值所对应的特征向量作为主成分向量。因为特征值越大,所对应的特征向量所含的信息量也越多,通常的r值是依据特征值所占的能量比例来决定的。如下式:

式(3.3)中d为一个自定义的百分数值,需要依据不同的需要进行设定,通常此百分比要高于80%[115]。本文中根据实际研究需要取90%。

3.1.2 主成分分析方法原理

假设A是n维随机向量,则可以用一组正交向量基B=(β1,β2,β3,…,βn)来表示随机向量A[116]

式(3.4)中ai为加权系数,将式(3.4)转换为矩阵形式为:

其中a=(a1,a2,a3,…,anT(www.xing528.com)

因为向量基B为正交向量基,所以存在:

因此B是一个正交矩阵,每个向量均为正交向量,即有:

在式(3.5)的两边共同左乘BT,同时考虑B为正交矩阵,可以得到:

BTA=BTBa,又因为式(3.6)的关系成立,得到:

下面介绍如何找出正交向量基B=(β1,β2,β3,…,βn),使得向量a的各个分向量互相不相关。前文已经定义随机向量A的自相关矩阵为:

将式(3.5)代入上式(3.7)得:

要使得向量a的各分向量互相不相关,需满足:

式(3.8)与式(3.9)相结合得到:

在式(3.10)的等号两边同时右乘向量B得到:PB=BΔBTB,又因为B为正交矩阵,

即BTB=1,可得:PB=BΔ即:

由式(3.11)可知,λi是A的自相关矩阵P的特征值,βi就是对应特征值的特征向量。又因为P矩阵是实对称矩阵,所以其不同特征值对应的特征向量是正交的。

3.1.3 主成分分析原理应用总结

从以上的主成分分析法的原理中我们可以看出,主成分分析法能够有效降低变量空间的维度,还可以简化向量的统计特征:一方面可以减少代数运算中噪声造成的误差;另一方面可以实现对高维数据进行可视化的显示。但主成分分析法基于很多假设条件,这些条件直接影晌到主成分分析法的应用,其主要基于以下几点假设:

(1)线性相关。主成分分析法原理基于K-L正交变换,以线性相关为基本条件,这要求这种计算方法所处理的数据之间的关系必须是线性的。如果数据关系是非线性的,会使主成分分析效果不明显。

(2)以中值和方差作为统计数据。它所能描述的模型仅限于像高斯分布这样的指数型概率分布,对于其他的模型描述效果欠佳。

(3)方差越大的向量越重要。由于数据自身的高信噪比,把方差较大的一堆向量作为主成分,其他的作为噪音元素,这会受低通滤波器的作用。

(4)主成分正交。K-L变换的前提条件是向量之间是正交的,这也能方便数学运算,提高应用效率

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈