首页 理论教育 使用主成分分析法进行数据分析

使用主成分分析法进行数据分析

时间:2023-06-09 理论教育 版权反馈
【摘要】:主成分分析法的数学模型为:其中,Y1到Yp被表示为数据X1到Xp的线性加权值,分别被称为第一主成分到第p主成分,它们的方差逐次降低,且相互独立。Yi的方差占Y1到Yp方差之和的比例被称为是第i主成分对总体信息的贡献率。

使用主成分分析法进行数据分析

1.主成分分析法的思想和数学模型

主成分分析法的中心思想是,在尽量保留原始数据信息,也即数据的离散程度信息的条件下,对多维数据进行降维,以便于对研究对象进行综合分析与评价。原始数据的信息主要体现在变量之间的方差协方差关系之中。更进一步,利用最为重要的几个主成分的方差在总体方差中的贡献作为权重,可以得到一个单一的总体评价指标。

主成分分析法的数学模型为:

其中,Y1到Yp被表示为数据X1到Xp线性加权值,分别被称为第一主成分到第p主成分,它们的方差逐次降低,且相互独立。Yi的方差占Y1到Yp方差之和的比例被称为是第i主成分对总体信息的贡献率。在进行主成分分析时,需要同时考虑降低数据的维数,即减少总体评价时的变量个数和对数据信息的保留。虽然不同文献中的选择并不相同,一般是保留前m(m<p)个主成分,并使其贡献率之和不低于80%。

2.主成分分析综合评价的计算方法与步骤

假定X是p维随机变量,要对其进行主成分分析,则步骤如下:

(1)数据标准化。

首先求出各个指标数据的均值和方差,均值用表示,方差用σi表示,其中i=1,…,p。这样就可以计算得到原始数据的标准化数据:

所以有Ei)=0,var(i)=1。

(2)求标准化变量的相关系数R。

在相关系数矩阵中,rij(i,j=1,2,…,p)为原始变量Xi与Xj的相关系数,也是标准化变量ij的相关系数和方差—协方差。

(3)求相关系数矩阵R的特征值和特征向量。(www.xing528.com)

首先,解特征方程|λI-R|=0,得到相关系数矩阵R的特征值λi(i=1,2,…,p),并使其按大小顺序排列,也即λ1≥λ2≥…≥λp≥0;然后分别求出对应于特征值λi的特征向量ei,得到特征向量e1,e2,…,ep。这里需要注意的是,特征向量ei是单位向量。利用数学原理可以知道,e1,e2,…,ep分别是主成分分析模型中的系数矩阵[aij](i,j=1,2,…,p)中的行向量。

(4)计算主成分贡献率并选取主成分个数。

主成分贡献率的计算公式为:

累计贡献率计算公式为:

一般取累计贡献率达到80%以上的特征值λ1,λ2,…,λm所对应的第1到第m个主成分。

(5)计算主成分得分。

在得到了系数矩阵以后便可以得到前m个主成分的得分:

(6)将选取的主成分加权得到综合评价指数E。

主成分加权综合评价指数E的计算公式为:

本书中基于主成分分析综合评价的一个计算程序见附录一。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈