首页 理论教育 新能源汽车数据分析与应用技术:相关分析与回归分析方法

新能源汽车数据分析与应用技术:相关分析与回归分析方法

时间:2023-08-19 理论教育 版权反馈
【摘要】:对这类存在相互联系的数据的分析,可以使用相关分析与回归分析方法。计算和运用直线相关系数需要注意的问题计算和运用相关系数,对现象进行相关分析,需要注意以下几点:①直线相关系数适用于两个数值型变量,要求两个变量服从或近似服从正态分布。判断是否存在因果关系,还需要结合具体情况进一步分析。等级相关系数的取值范围为-1~1,取值大小对相关密切程度的说明与直线相关系数相同。

新能源汽车数据分析与应用技术:相关分析与回归分析方法

无论是数据的描述性度量分析还是抽样数据的推断分析,都是针对某个单独现象内在规律数据的描述与分析,但现实中的现象并非完全独立的,现象与现象之间往往在数量上存在一定的相互联系,这种相互联系表现为数量上的相互依赖、相互制约、相互影响。对这类存在相互联系的数据的分析,可以使用相关分析与回归分析方法。

1.相关关系

(1)相关关系的概念

现实世界中各种现象之间有时会存在某种数量上的联系,某一个(或一些)现象发生变化时,另一现象会随之发生变化。这种变化分两种情形:一种是当某一个(或一些)现象发生数量上的变化时,另一个现象在数量上的变化是确定的,变化的方向及程度都可以确定,这种确定性的数量关系称为函数关系,如圆的面积与半径之间,自由落体运动的时间与下降的高度之间等;另一种是当一个(或一些)现象发生一定量的变化时,另一个现象也会发生相应的变化,但变化的具体数量是不确定的,会围绕一个值上下随机波动,这种不确定性的数量关系称为相关关系(correlation),如农作物的收获量与浇水量、施肥量之间,居民的消费支出与收入之间,某种商品的销售量与销售价格之间等。

(2)相关关系的种类

①按相关关系的方向不同,分正相关负相关

②按相关关系涉及变量(因素)的多少,分单相关与复相关。两个变量之间的相关关系称为单相关,三个或三个以上的变量之间的相关关系称为复相关。

③按相关关系的形式不同,分线性相关与非线性相关。

④按相关关系的密切程度,分完全相关、不完全相关与完全不相关。

(3)相关关系的描述与直观判断

判断两个现象间有无相关关系,可以通过相关表和相关图进行直观判断。

①相关表。相关表是根据得到的数据,将一个变量的观测值按从小到大(或从大到小)的顺序排列在表的一栏,将另一变量的观测值对应排列在表的另一栏,由此形成的统计表,通过相关表可以判断变量之间相关的方向及大致形态。在观察上升或下降的具体形式时,可进一步计算逐期增长量、环比增长速度等指标,以判断是直线形式,还是抛物线、指数曲线等形式。

需要注意的是,如果观测次数较多,则不能按上述相关表将所有数据列出,此时需要将数据按其中的一个变量分组,计算另一变量的平均值,通过考察分组变量与平均值的数量变化关系进行初步判断。

②相关图。相关图又叫散点图,是将观测到的两个现象的成对数据,绘制在直角坐标中得到的一系列的散点。相关图比相关表可以更直观地描述现象间有无相关关系、相关的表现形式以及相关的近似密切程度。

需要注意的是,无论是相关表还是相关图,只适合用来考察两个变量之间的相关关系,不能用于考察多个变量间的相关关系。

2.直线相关系数

相关图表只能直观展现变量之间的相关关系,用于初步判断是否存在相关关系。如果要进一步描述相关的密切程度,则需要计算相关系数。常用的反映两个变量间相关密切程度的简单相关系数有简单线性相关系数和等级相关系数两种。其中,简单线性相关系数也就是直线相关系数,用来度量两个数值型变量线性相关的密切程度。

(1)直线相关系数的计算

直线相关系数是使用最广泛的相关系数,一般情况下提到的相关系数都是直线相关系数。直线相关系数通常采用积差法公式计算,由英国统计学家卡尔·皮尔逊(Karl Pearson)最先提出,故又称为皮尔逊相关系数。用r表示直线相关系数,自变量xy的直线相关系数为

978-7-111-59638-7-Chapter04-1.jpg

式(4-1)的分子为两个变量的协方差,分母分别为两个变量的标准差。对上式可进一步简化为:

978-7-111-59638-7-Chapter04-2.jpg

(2)直线相关系数的取值与相关密切程度

可以证明,当相关系数|r|≤1时:如果r大于0,则表明现象呈正相关关系;如果r小于0,则表明现象呈负相关关系。r的绝对值越大,表明现象间的直线相关程度越高。当r的绝对值为1时,两者完全相关,即为函数关系;反之,则表明现象间的直线相关程度越低。当r的绝对值为0时,说明两者完全不存在直线相关关系。一般来说,可以将相关系数按密切程度划分为以下等级(表4-1):

4-1 相关系数|r|取值对相关程度的影响

978-7-111-59638-7-Chapter04-3.jpg

以上只是从经验角度进行的划分,现象间是否相关还需要对相关系数进行显著性检验。当两个变量之间直线相关程度较低时,不一定表明两者不存在相关关系,因为两者可能存在曲线相关关系。

(3)计算和运用直线相关系数需要注意的问题

计算和运用相关系数,对现象进行相关分析,需要注意以下几点:

①直线相关系数适用于两个数值型变量,要求两个变量服从或近似服从正态分布

②直线相关系数表明的是两个现象间直线相关程度的高低,当其绝对值小时,表示两者的直线相关关系不明显,但并不代表两者相关关系不明显,因为两者可能存在某种形式的曲线相关。

③两个变量之间的直线相关系数绝对值较高并不表明两者存在因果关系或者存在影响与被影响的关系。判断是否存在因果关系,还需要结合具体情况进一步分析。

3.等级相关系数

等级相关系数又称秩相关系数,用来测定两个用等级表示的变量之间的相关密切程度,最初由统计学家斯皮尔曼(Charles Edward Spearman)提出,所以又称为斯皮尔曼等级相关系数。

(1)等级相关系数的计算

等级相关系数测定的是两个用等级表示的变量之间的相关密切程度,采用如下公式计算:(www.xing528.com)

978-7-111-59638-7-Chapter04-4.jpg

式中,rs为等级相关系数;n为观测的次数;RxRy分别表示变量xy的等级,Rx-Ry表示变量xy之间的等级差。

等级相关系数的取值范围为-1~1,取值大小对相关密切程度的说明与直线相关系数相同。对于等级变量,可以证明Pearson直线相关系数等于Spearman等级相关系数。

对于两个等级变量,从皮尔逊直线相关系数公式出发可以推导出上述等级相关系数公式。因此,对两个等级变量计算Pearson相关系数和Spearman相关系数的结果相同。

(2)计算和运用等级相关系数需要注意的问题

直线相关系数适用于两个数值型变量,要求两个变量服从或近似服从正态分布,而等级相关系数对变量的分布不作要求,属于非参数统计方法,适用范围更广。等级相关系数一般适用于以下情形:

①两个变量的表现值均为顺序数据。

②一个变量为顺序数据,另一个变量为数值数据,此时要将数值型数据转换为等级。

③如果两个数值型变量的分布未知,则适合计算等级相关系数进行分析,此时要同时将两个数值型数据转换为等级。

④对于满足计算直线相关系数条件的数据,也可计算等级相关系数,但统计效能要低一些。

此外,计算等级相关系数时,变量xy之间的n组成对观测应分属n个不同等级。如果排序出现相同的情况,则应取平均排位。

4.相关系数的显著性检验

在对两个现象进行相关分析时,观测得到的两个变量的n组值可以看做是从总体中随机抽取的一个样本,计算出来的相关系数r是一个样本相关系数,只是总体相关系数的一个估计,如果再次观测,则又可以得到另一个样本。因而,样本相关系数是一个随机变量,依据样本计算的相关系数是否表明在总体范围内两者仍然存在相关关系呢?为此需要通过显著性检验加以推断。对相关系数的显著性检验分两类:一类是检验总体相关系数是否为0;另一类是检验总体相关系数是否等于某个不为0的特定值。其中以前者最为常见。

假设检验中对研究问题做出假设时,通常以研究者想要支持的观点作为备择假设,如果拒绝了原假设,则这一结果符合研究者的意愿,在相关和回归分析的各种统计检验中通常表述为通过了显著性检验;否则表述为未通过显著性检验。

(1)相关系数是否等于0的显著性检验

对于总体相关系数是否为0的检验通常采用t检验,适用于大样本和小样本,步骤如下。

①需要检验的假设为: 978-7-111-59638-7-Chapter04-5.jpg

978-7-111-59638-7-Chapter04-6.jpg

H0成立时,上述与r有关的t统计量服从自由度为(n-2)的t分布。

③根据估计的样本相关系数r计算出t值,给定显著性水平α,查t分布表得临界值tα/2n-2):若|t|≥tα/2,则表明相关系数r显著不为0,应否定ρ=0的假设而接受ρ≠0的假设,即总体的两变量显著相关;若|t|<tα/2,则收应接受ρ=0的假设,即总体的两变量间相关性不显著。

(2)相关系数是否等于某个值的显著性检验

如果两个变量相关系数不为0的显著性检验通过,则只是表明两者之间存在相关关系。至于相关关系是否达到某种程度还不能加以判断,还需要对相关系数是否等于某个值进行检验。此时,上述t检验方法不再适用。为此,费雪(Sir Ronald Aylmer Fisher)将相关系数进一步转换为z′统计量构造近似正态分布加以检验。

978-7-111-59638-7-Chapter04-7.jpg

978-7-111-59638-7-Chapter04-8.jpg

在上述统计量中,ρ为总体相关系数;n样本容量m为变量个数(对于直线相关,m=2)。需要注意的是,上述检验要求为大样本。

5.复相关与偏相关

直线相关系数和等级相关系数是对两个变量呈线性相关时紧密程度的度量。如果两个变量呈非线性相关或相关关系涉及多个变量,则不能用上述相关系数对相关的紧密程度进行度量。

(1)复相关系数

复相关系数是反映因变量与影响它的多个自变量之间相关紧密程度的指标,用R表示。如浇水量(x1)和施肥量(x2)同时影响作物产量(y),两个自变量作为一个整体与产量之间相关的紧密程度如何,就需要用复相关系数度量。

复相关系数的计算较为麻烦,通常不在相关分析中直接计算其值,而是利用回归分析中的可决系数R2转换。因为各个自变量对因变量的影响方向可能不同,所以复相关系数不再区分符号,将可决系数取算术平方根即为复相关系数。复相关系数的取值为0~1,越接近1,表明所有自变量整体与因变量之间的相关关系越紧密。

在回归分析中,可决系数R2代表了模型的拟合优度,而模型的拟合优度即表明所有自变量整体对因变量的解释程度。相关关系越紧密,解释程度越高,R2就越接近1。对于可决系数的计算将在回归分析中加以介绍,直线相关系数可以看做是复相关系数的特例。

(2)偏相关系数

在复相关中,不仅要研究多个自变量与因变量之间的共同依存关系,还要进一步研究每一个自变量与因变量之间的单独依存关系。偏相关系数又称为净相关系数,就是假定在其他自变量不变时,某个自变量与因变量之间相关关系的紧密程度。因变量y与自变量xi之间的偏相关系数记为ryxi,偏相关系数的取值为-1~1,其绝对值越大,表明该自变量与因变量之间的关系越紧密。显然,偏相关系数的个数等于自变量的个数,利用偏相关系数可以判别各个自变量与因变量之间紧密程度的主次关系。

偏相关系数的计算也较为麻烦,在相关分析中通常不直接计算其值。因为回归分析中计算与检验回归系数的意义已经涵盖了偏相关系数的意义,并且其值与回归系数有关,所以在实际研究中较少使用。此处对其计算略去。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈