首页 理论教育 社会统计学中线性回归:回归直线拟合优度R2为84.82%

社会统计学中线性回归:回归直线拟合优度R2为84.82%

时间:2023-08-05 理论教育 版权反馈
【摘要】:最小二乘法上面所谈变量x 和变量y 之间存在线性回归,是针对总体而言。回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。将y︿=a+bx,以及a 与b的表达式、、代入式,整理后可得R2 也被称为判定系数,它测度了回归直线对观测数据的拟合程度。解因为拟合优度R2 =r2,由例5.2 可得:相关系数r=0.921,则即月收入可以解释住房面积变化的84.82%。

社会统计学中线性回归:回归直线拟合优度R2为84.82%

(1)回归方程与线性回归方程

根据上一节的散点图可以看出,当自变量取某一值xi 时,因变量y 对应为一概率分布,又称条件分布。 如果对于所有的xi(i=1,2,…,n)其条件分布都相同,说明变量x 与y是不相关的。 反之,如果对应不同的x 值,y 的分布是不同的,则说明x 与y 是相关的。但分布的比较是复杂的,为此,将其简化为在x 不同取值下分布数字特征的比较。 其中,最简单的就是均值的比较。 例如,可以将身高与体重的关系简化为在不同的身高下,研究被调查者的平均体重是否有所不同。 由于确定的x =xi,y 的均值也是确定的,因此x 与y 的均值之间就形成了确定的函数关系。

把x =xi 条件下,yi 的均值记作E(yi),如果E(yi)是x 的函数则可表示为:

式(5.4)称作y 对x 的回归方程。 可见,回归方程是研究自变量x 不同取值时,因变量y 平均值的变化。

当因变量y 的平均值与自变量x 呈现线性规律时,称作线性回归方程,这里因为只有一个自变量,又称为一元线性回归方程。 它的表达式为:

其中,α 称作回归常数,是回归直线的截距;β 称作回归系数,是回归直线的斜率。 每一个真实yi 与回归直线的关系是:

其中,yi随机变量,ei随机误差项,由于ei 的值是非固定的,从而使x 与y 呈现非确定性的关系。

(2)最小二乘法

上面所谈变量x 和变量y 之间存在线性回归,是针对总体而言。 但由于在现实情况中很难获取总体的全部数据,因而也就无法知道回归直线中的α 和β。 因此,我们的任务是从总体中抽取一个样本,通过样本值估计出总体回归直线的系数α 和β,即建立直线回归方程。 但是,正如一切随机现象所共有的特性,由于抽样误差的存在,样本的均值并不总是等于总体的均值。 总体y 均值点的连线为直线,并不表示样本y 均值点的连线就能成为直线。 那么,如何根据样本散点图上散乱的点作出一条最佳的估计直线呢? 下面介绍最小二乘法(Least⁃squares criterion)的方法,可以证明它是通过样本对总体线性回归最好的估计方法。

设从总体中抽取一个样本,其观测值为

(x1,y1

(x2,y2

(xn,yn

现在围绕这n 个观测点,画一条直线(见图5.3):

图5.3 线性回归直线

可以想象,当a 和b 取不同值时,可以得到无数条直线。 那么,在这无数条直线中,哪一条是这n 个样本点的最佳拟合直线呢? 一个很自然的想法,应该是到各点都比较接近的那条直线为最佳。 统计学上将这样的想法表示为:各点到待估直线的铅直距离之和为最小,这就是求回归直线的最小二乘法的原理。

设点i 的观测值为(xi,yi),把xi 代入待定的直线式(5.7)中,得:

yi 到待定直线的铅直距离为yi 减去y′i

(www.xing528.com)

Δi 也称为残差,则n 点铅直距离的平方和为:

显然,Q 值是a,b 的函数。 根据最小二乘法的原理,需要求得使Q(a,b)达最小值时的a,b 值:

将式(5.10)代入式(5.11)有:

根据式(5.12),解二元一次联立方程得:

将通过最小二乘法所确定的a,b 值,代入待估的直线方程式(5.7)中,得:

此即总体线性回归方程的最佳估计方程。

【例5.3】 请以表5.3 为例,求解以月收入为自变量、住房面积为因变量的回归方程。

回归方程表明,家庭月收入每增加1 000 元,住房面积会相应增加11.39 平方米

(3)线性回归方程的拟合优度

回归直线y︿=a+bx 在一定程度上描述了变量x 与y 之间的数量关系,根据这一方程,可依据自变量x 的取值来估计或预测因变量y 的取值。 但估计或预测的精度如何将取决于回归直线对观测数据的拟合程度。 可以想象,如果各观测数据的散点都落在这一直线上,那么这条直线就是对数据的完全拟合,直线充分代表了各个点,此时用x 来估计y 是没有误差的。 各观测点越是紧密围绕直线,说明直线对观测数据的拟合程度越好,反之则越差。 回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。

这个消减误差比例就是回归方程的拟合优度,用R2 来表示。 将y︿=a+bx,以及a 与b的表达式(5.13)、(5-14)、(5-15)代入式(5.16),整理后可得

R2 也被称为判定系数,它测度了回归直线对观测数据的拟合程度。 若所有观测点都落在直线上,则R2 =1,拟合是完全的;如果y 的变化与x 无关,x 完全无助于解释y 的变差,则R2 =0。 可见R2 的取值范围是[0,1]。 R2 越接近1,表明回归直线与各观测点越接近,回归直线的拟合程度就越好;反之,R2 越接近0,则表明回归直线的拟合程度越差。

【例5.4】 请以表5.3 为例,计算例5.3 中求得的回归方程的拟合优度。

解 因为拟合优度R2 =r2,由例5.2 可得:

相关系数r=0.921,则

即月收入可以解释住房面积变化的84.82%。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈