首页 理论教育 社会统计学:回归方程预测

社会统计学:回归方程预测

时间:2023-08-05 理论教育 版权反馈
【摘要】:市长数据分析办公室的主管Michael Flowers 在纽约市街头走访,和消防员、警察、大楼管理员等人进行交谈,尝试找出与建筑物是否违法改建相关的因素。这个系统将监察员现场签发房屋腾空令的比例从17%上升至70%。Michael Flowers 通过多区域居民平均收入、建筑物年龄、是否被投诉过、是否存在电气性能问题等因素建立多元回归分析,成功地预测了火灾发生的可能性,为规避火灾起到了很大的作用。表10.2 列出了1952—1981 年的原始数据,试构造该地财政收入的预测模型。

社会统计学:回归方程预测

【案例】

纽约市政府利用相关分析监控违法建筑

拥有超过820 万人口的纽约市每年发生2.5 万余次火灾,这些火灾大多发生在违规改建的建筑中,纽约市政府每天接到6 万多次投诉电话,但只有200 个监察员根据投诉电话随机检查被投诉建筑。 市长数据分析办公室帮助消防局改变了这种被动的局面。

消防局专门拨出200 个监察员用于监察非法建筑的存在,监察员们的常规做法有两种:伪装成租客前去家庭旅馆勘察是否存在非法改建情况,或者根据纽约市311 投诉电话的居民投诉随机检查非法建筑。

纽约市每天收到6.5 万次投诉,有关非法改建的投诉通常来自曼哈顿区,而实际上非法建筑常常存在于布鲁克林、皇后和布朗克斯各区的外围。

市长数据分析办公室的主管Michael Flowers 在纽约市街头走访,和消防员警察、大楼管理员等人进行交谈,尝试找出与建筑物是否违法改建相关的因素。 作为一个之前没有过程序设计和统计基础的分析师,Michael Flowers 最终带领手下的7 个数据分析师成功地建立了一个消防检测系统,该系统将全市的33 万栋建筑划分为60 个火灾风险等级,纽约市的341 个消防单位根据这个系统决定每周的常规检查路线和重点检查建筑。 这个系统将监察员现场签发房屋腾空令的比例从17%上升至70%。 除了消防检测系统外,Michael Flowers 还协助纽约市政府做了许多其他的工作,他帮助纽约市政府在桑迪飓风来袭后完成灾后重建系统,通过标注每栋建筑是否含有发电机确定它是否应该优先投入使用:他使用相关分析洞察60 个变量的关系。 与一栋大厦是否可能发生火灾相关的常见因素有大厦的类型(家庭、工厂、商场)、大厦的高度、施工材料、建筑的新旧程度等,即便是不了解消防知识的普通市民也能将这些因素和火灾联系起来。

Michael Flowers 通过多区域居民平均收入、建筑物年龄、是否被投诉过、是否存在电气性能问题等因素建立多元回归分析,成功地预测了火灾发生的可能性,为规避火灾起到了很大的作用。

【例10.1】

财政收入预测问题

某地财政收入与国民收入工业总产值农业总产值、总人口、就业人口、固定资产投资等因素有关。 表10.2 列出了1952—1981 年的原始数据,试构造该地财政收入的预测模型。

表10.2 某地财政收入与国民收入、工业总产值、农业总产值等关系数据表

续表

问题分析与建模 根据问题要求,做如下假设:

①设国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资分别为x1,x2,x3,x4,x5,x6,财政收入为y。

②根据历年相关数据情况,建立如下多元回归模型:

y =ax1 +bx2 +cx3 +dx4 +ex5 +fx6

模型求解(含程序) 根据上述模型,采用非线性回归方法求解。

①对回归模型建立M 文件model.m 如下:

②建立主程序CZYC.m 如下:

③求解结果。

运行程序,即得:

从而可得,财政收入预测模型为:

y =0.524 3x1 - 0.029 4x2 - 0.630 4x3 +0.011 2x4 - 0.023 0x5 +0.365 8x6

结论 根据该模型,当得到1983 年国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资的具体数据后,即可以得到当年的财政收入预测值,这对该地的财政预算、经济发展决策与分析将起着很好的指导作用。

【例10.2】

商品需求预测

根据历史资料,某商品的需求量与消费者的平均收入、商品价格的统计数据如表10.3 所示,请根据该数据建立回归模型,预测当消费者平均收入为1 000 单位、商品促销价格为6 单位时的商品需求量。

表10.3 商品需求量、销售价格与消费者收入之间的关系

分析与建模 假设商品需求量、消费者收入与销售价格分别为y,x1,x2。 根据表10.3的数据,作散点图,可以发现,该数据之间的关系有可能存在二次函数关系。 于是考虑用纯二次、交叉二次或完全二次对其进行建模比较,选择最优结果。

①选择纯二次模型进行建模求解,即:(www.xing528.com)

②选择交叉二次模型进行建模求解,即:

③选择完全二次模型进行建模求解,即:

模型求解及比较

①数据输入:

②分别针对上述3 种模型进行回归分析、检验及预测:

rstool(x,y, purequadratic ).

纯二次模型的结果:

得到一个交互画面(图10.1),给出两幅图形,左边是商品价格固定时,需求量关于消费者收入的曲线及其置信区间,右边是消费者收入固定时,需求量关于商品价格的曲线及其置信区间。

图10.1 纯二次模型

将左边图形下方方框中的“800”改成“1 000”,右边图形下方的方框中仍输入“6”,则画面左边的“Predicted Y”下方的数据由原来的“86.379 1”变为“88.479 1”,即预测出平均收入为1 000、价格为6 时的商品需求量为88.479 1。

交叉二次模型的结果:

图10.2 交叉二次模型

将左边图形下方方框中的“800”改成“1 000”,右边图形下方的方框中仍输入“6”,则画面左边的“Predicted Y”下方的数据由原来的“78.475 21”变为“81.448 3”,即预测出平均收入为1 000、价格为6 时的商品需求量为81.448 3。

完全二次模型的结果:

图10.3 完全二次模型

将左边图形下方方框中的“800”改成“1 000”,右边图形下方的方框中仍输入“6”,则画面左边的“Predicted Y”下方的数据由原来的“87.909 3”变为“89.101 9”,即预测出平均收入为1 000、价格为6 时的商品需求量为89.101 9。

在画面左下方的下拉式菜单中选择“all”,则beta,rmse 和residuals 都传送到MATLAB 工作区,于是在MATLAB 工作区中输入命令:

故回归模型为:

剩余标准差为4.536 2,说明此纯二次回归模型的显著性较好。

模型检验 运用多元线性回归进行检验,即假设该模型为:

仿真验证其参数程序:

结论及分析 可以看出,两种方法的结果是一样的。 stats 中第一个数据与1 非常接近,第三个数据与0 非常接近,表明所得的模型限制性很好。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈