首页 理论教育 线性回归分析及其预测模型

线性回归分析及其预测模型

时间:2023-07-31 理论教育 版权反馈
【摘要】:回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,将其分为线性回归分析和非线性回归分析。由式(5.2)不难理解,总体回归方程描述的是y和x两个变量之间平均的数量变化关系。通常将式(5.2)称为总体的一元线性回归方程或总体回归直线,用E表示给定自变量xi时因变量的均值或期望值。根据样本观察数据估计出和的数值之后,样本回归方程(5.3)可作为预测模型,即一元线性回归预测模型。

线性回归分析及其预测模型

回归分析中,又依据描述自变量因变量之间因果关系的函数表达式是线性的还是非线性的,将其分为线性回归分析和非线性回归分析。函数表达式通过自变量指数来进行判断即可,线性就是每个自变量的指数都是一次方,也即自变量和因变量之间可拟合成直线,而非线性就是至少有一个自变量的指数是二次方或多次方,为曲线形态。

1.一元线性回归

如果在回归分析中,只包括一个自变量(输入特征x)和一个因变量(预测特征或输出特征y),且二者的关系可用一条直线近似表示,这种回归称为一元线性回归,也叫简单线性回归。建立的方程称为一元线性回归方程,由自变量x的值来预测因变量y的值,这就是一元线性回归预测。一元线性回归模型为:

其中,β0和β1为模型的未知参数,也叫回归系数;ε为随机误差,我们假定ε的是零均值[E(ε)=0]、同方差[D(ε)=σ2(σ>0)]、相互独立[Cov(εi,εj)=0(i≠j)]且服从正态分布的;y为因变量,x为自变量。

对于给定的数据训练集(n组观测值)D={(x1,y1),…,(xn,yn)},以(xi,yi)为坐标在直角坐标系xOy中画出这些数据点,该图形称为数据的散点图。如果这些点大致地位于同一条直线的附近,或者说,散点图呈现线性形状,则认为y与x之间的关系符合线性关系。

对式(5.1)求均值,则有:

其中,β0和β1为模型的未知参数,也叫回归系数;ε为随机误差,我们假定ε的是零均值[E(ε)=0]、同方差[D(ε)=σ2(σ>0)]、相互独立[Cov(εi,εj)=0(i≠j)]且服从正态分布的;y为因变量,x为自变量。

对于给定的数据训练集(n组观测值)D={(x1,y1),…,(xn,yn)},以(xi,yi)为坐标在直角坐标系xOy中画出这些数据点,该图形称为数据的散点图。如果这些点大致地位于同一条直线的附近,或者说,散点图呈现线性形状,则认为y与x之间的关系符合线性关系。

对式(5.1)求均值,则有:

通常将式(5.2)称为总体的一元线性回归方程或总体回归直线,用E(yi)表示给定自变量xi时因变量的均值或期望值。β0和β1统称为总体回归方程的参数。其中β0是总体回归方程的常数项,是总体回归直线在y轴上的截距;β1是总体回归系数,也是总体回归直线的斜率。由式(5.2)不难理解,总体回归方程描述的是y和x两个变量之间平均的数量变化关系。

通常将式(5.2)称为总体的一元线性回归方程或总体回归直线,用E(yi)表示给定自变量xi时因变量的均值或期望值。β0和β1统称为总体回归方程的参数。其中β0是总体回归方程的常数项,是总体回归直线在y轴上的截距;β1是总体回归系数,也是总体回归直线的斜率。由式(5.2)不难理解,总体回归方程描述的是y和x两个变量之间平均的数量变化关系。

在实际中,由于通常不可能把变量的全部可能取值收集齐全,总体回归方程中的参数β0和β1是不可能直接观测计算而得的,而是有待估计的未知参数。为此,我们需要根据样本信息来估计。若能通过适当的方法,找到两个参数β0和β1的估计量,则得到估计的回归方程,也称样本回归方程。一元线性的样本回归方程也称为样本回归直线,其形式如下:

在实际中,由于通常不可能把变量的全部可能取值收集齐全,总体回归方程中的参数β0和β1是不可能直接观测计算而得的,而是有待估计的未知参数。为此,我们需要根据样本信息来估计。若能通过适当的方法,找到两个参数β0和β1的估计量,则得到估计的回归方程,也称样本回归方程。一元线性的样本回归方程也称为样本回归直线,其形式如下:

(5.3)式中,yi 是与自变量取值相对应的因变量均值的估计;β0是样本回归方程的常数项,也就是样本回归直线在Y轴上的截距,表示除自变量x以外的其他因素对因变量y的平均影响量;是样本回归系数,也即样本回归直线的斜率,表示自变量x每增加一个单位时因变量y的平均增加量。

(5.3)式中,yi 是与自变量取值相对应的因变量均值的估计;β0是样本回归方程的常数项,也就是样本回归直线在Y轴上的截距,表示除自变量x以外的其他因素对因变量y的平均影响量;是样本回归系数,也即样本回归直线的斜率,表示自变量x每增加一个单位时因变量y的平均增加量。

根据样本观察数据估计出的数值之后,样本回归方程(5.3)可作为预测模型,即一元线性回归预测模型。

根据样本观察数据估计出的数值之后,样本回归方程(5.3)可作为预测模型,即一元线性回归预测模型。

在确定散点图呈现线性形状后,如何确定式(5.3)中的两个系数呢?人们总是希望寻求一定的规则和方法,使得所估计的样本回归方程是总体回归方程的最理想的代表。最理想的回归直线应该尽可能从整体来看最接近各实际观察点,即散点图中各点到回归直线的垂直距离,即因变量的实际值yi与相应的回归估计值的离差整体来说为最小。由于离差有正有负,正负会相互抵消,通常采用观测值与对应估计值之间的残差平方和(Residual Sum of Squares)来衡量全部数据总的离差大小。我们的目标是找到一条直线使得所有样本数据尽可能落在这条直线的附近,也即这些点到该条直线的距离最短,可以用最小化残差平方和来达到该目标,从而寻找最优的参数,也即求解如下问题:

在确定散点图呈现线性形状后,如何确定式(5.3)中的两个系数呢?人们总是希望寻求一定的规则和方法,使得所估计的样本回归方程是总体回归方程的最理想的代表。最理想的回归直线应该尽可能从整体来看最接近各实际观察点,即散点图中各点到回归直线的垂直距离,即因变量的实际值yi与相应的回归估计值的离差整体来说为最小。由于离差有正有负,正负会相互抵消,通常采用观测值与对应估计值之间的残差平方和(Residual Sum of Squares)来衡量全部数据总的离差大小。我们的目标是找到一条直线使得所有样本数据尽可能落在这条直线的附近,也即这些点到该条直线的距离最短,可以用最小化残差平方和来达到该目标,从而寻找最优的参数,也即求解如下问题:

2.多元线性回归

一元线性回归是用一个主要影响因素x作为自变量来解释因变量y的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归,也叫多重线性回归。

设y是可观测的随机因变量,x1,x2,…,xk为k个自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:

2.多元线性回归

一元线性回归是用一个主要影响因素x作为自变量来解释因变量y的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归,也叫多重线性回归。

设y是可观测的随机因变量,x1,x2,…,xk为k个自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:

其中,β0为常数项,β1,β2,…,βk为回归系数,β1为当x2,x3,…,xk固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理β2为x1,x3,…,xk固定时,x2每增加一个单位对y的效应,即x2对y的偏回归系数;等等。如果两个自变量x1,x2同一个因变量y呈线性相关时,可用二元线性回归模型描述为:

其中,β0为常数项,β1,β2,…,βk为回归系数,β1为当x2,x3,…,xk固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理β2为x1,x3,…,xk固定时,x2每增加一个单位对y的效应,即x2对y的偏回归系数;等等。如果两个自变量x1,x2同一个因变量y呈线性相关时,可用二元线性回归模型描述为:

建立多元线性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:(www.xing528.com)

(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;

(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;

(3)自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之间的相关程度;

(4)自变量应具有完整的统计数据,其预测值容易确定。

在多元线性回归模型式(5.8)中,自变量x1,x2,…,xk是非随机且可精确观测,随机误差ε代表其他随机因素对因变量y产生的影响。对n组观测值(xi1,xi2,…,xik;y)(i=1,2,…,n;n>k),自变量和因变量应满足下列式子:

建立多元线性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:

(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;

(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;

(3)自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之间的相关程度;

(4)自变量应具有完整的统计数据,其预测值容易确定。

在多元线性回归模型式(5.8)中,自变量x1,x2,…,xk是非随机且可精确观测,随机误差ε代表其他随机因素对因变量y产生的影响。对n组观测值(xi1,xi2,…,xik;y)(i=1,2,…,n;n>k),自变量和因变量应满足下列式子:

其中,ε1,ε2,…,εn相互独立,且εi~N(0,σ2)(i=1,2,…,n),记为:

其中,ε1,ε2,…,εn相互独立,且εi~N(0,σ2)(i=1,2,…,n),记为:

则,模型可用矩阵形式表示为:

则,模型可用矩阵形式表示为:

对应的样本回归方程为:

对应的样本回归方程为:

根据公式(5.11),求其残差平方和为:

根据公式(5.11),求其残差平方和为:

和一元线性回归类似,我们对参数β求偏导,并令导数为零:

和一元线性回归类似,我们对参数β求偏导,并令导数为零:

因此最优参数解为:

因此最优参数解为:

其中,X T为X的转置矩阵,就是将矩阵X的行和列互换为:

其中,X T为X的转置矩阵,就是将矩阵X的行和列互换为:

(X T X)-1为(X T X)的逆矩阵,逆矩阵定义:一个n阶方阵A称为可逆的,或非奇异的,如果存在一个n阶方阵B,使得AB=BA=E,E为单位矩阵(即:对角线上的元素为1,其他元素都为0),并称B是A的一个逆矩阵,A的逆矩阵记作A-1。逆矩阵的求法,可参考相关线性代数也可参考脚注文献[12]

(X T X)-1为(X T X)的逆矩阵,逆矩阵定义:一个n阶方阵A称为可逆的,或非奇异的,如果存在一个n阶方阵B,使得AB=BA=E,E为单位矩阵(即:对角线上的元素为1,其他元素都为0),并称B是A的一个逆矩阵,A的逆矩阵记作A-1。逆矩阵的求法,可参考相关线性代数也可参考脚注文献[12]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈