首页 理论教育 逐步回归变量选择在实验设计与R语言应用中的成果

逐步回归变量选择在实验设计与R语言应用中的成果

时间:2023-11-24 理论教育 版权反馈
【摘要】:在实际工作中,研究者可以根据专业知识或者事先经验判断应该进入回归方程中的自变量。用逐步回归step()函数对模型进行计算发现,当全部自变量进入回归方程时,AIC=39.35,去掉总胆固醇时AIC=37.377,再去掉其他任何一个变量,AIC的值都增大,因此得到最优自变量为甘油三酯、胰岛素和糖化血红蛋白。

逐步回归变量选择在实验设计与R语言应用中的成果

在包括全部预测变量的初步模型统计中有部分变量对血糖大小没有显著影响,说明将全部变量都选入回归方程效果不一定很好。这里就涉及多元回归分析过程中重要的一步,需要进行变量选择,以建立最优回归方程。在实际工作中,研究者可以根据专业知识或者事先经验判断应该进入回归方程中的自变量。如果手动选择变量,需要注意的是一次只能剔除一个不显著的偏回归系数对应的变量,被剔除的变量的偏回归系数应该是所用不显著的偏回归系数(F或|t|)中最小者。这是因为自变量之间往往存在相关性,当剔除某一个不显著的自变量之后,其对因变量的影响很大部分可以转加到另外不显著的自变量对因变量的影响上。如果同时剔除两个以上的自变量时,会较多地减少回归平方和,从而影响回归方程预测的可靠程度。如果缺乏专业知识和先验指导可以通过一些计算方法筛选变量。这里采用逐步回归法进行筛选,在R中常用step()函数或者MASS包中stepAIC()函数完成逐步回归优化。它们都以赤池统计量(Akaike,AIC)为依据,通过选择最小的AIC统计量达到选择的目的。

用逐步回归step()函数对模型进行计算发现,当全部自变量进入回归方程时,AIC=39.35,去掉总胆固醇时AIC=37.377,再去掉其他任何一个变量,AIC的值都增大,因此得到最优自变量为甘油三酯、胰岛素和糖化血红蛋白。用summary()函数提取逐步回归的详细信息发现:各项回归系数显著水平有较大提高,所有检验都是显著的。最优方程可以用公式表示:Y(空腹血糖)=7.1434+0.3864×X2(甘油三酯)-0.3090×X3(胰岛素)+0.628×X4(糖化血红蛋白)(www.xing528.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈