首页 理论教育 样本选择与描述性统计分析技巧

样本选择与描述性统计分析技巧

时间:2023-05-30 理论教育 版权反馈
【摘要】:本文采用的企业数据来自国家统计局2008年进行的第二次全国经济普查。表42008年服务业单位的门类分布及经济状况续表资料来源:根据国家统计局2008年第二次全国经济普查汇总。表5变量的描述性统计注:平均工资的单位为千元,小时工资的单位为元。基于以上对数据的描述统计,我们将借用计量工具对数据展开深入的分析并与此同时验证前文提出的假设。

样本选择与描述性统计分析技巧

本文采用的企业数据来自国家统计局2008年进行的第二次全国经济普查。数据涵盖2008年全国全部第二、三产业法人单位及拥有第二、三产业附属活动单位的第一产业法人单位,简单排除关键指标缺失的单位后,仍有7 060 475家,覆盖国民经济行业分类(GB/T 4754-2002)从A到S一共19个门类。其中,服务业单位覆盖全部服务业分类。表4依据门类汇总了这些单位2008年的主要经济情况。

表4 2008年服务业单位的门类分布及经济状况

续表

资料来源:根据国家统计局2008年第二次全国经济普查汇总。(www.xing528.com)

从表4中可以看出,中国服务业中批发零售业占据了服务业的半壁江山,无论是法人单位、从业人数、年营业收入都占据同行业中最大的比重,金融业虽然法人单位与从业人数并不多,但是资产规模却占据了整个服务业的57.33%。

为了得到计量模型所需要的数据,我们对原始数据进行了大量的整理工作。首先,根据模型设定的指标对所有数据进行了筛选,其中有50个四位码行业由于关键指标数据(例如工资)缺失,所以剔除了这50个行业的数据,最后得到了299个四位码行业[6]的指标数据;其次,在每个行业的数据文件下,对于重要指标数据缺失的企业进行了删除;最后对每个行业进行数据整理,得到计量所需要使用的299个个体截面数据,表5是模型中有关变量的描述性统计。

表5 变量的描述性统计

注:平均工资的单位为千元,小时工资的单位为元。

从表5中可以看出,因变量——小时工资方差较大,平均值为17.1378,最大值达到了101.8957,而最小的只有5.7776,这说明行业间存在着较大的工资差距,平均工资更是放大了这个差距;就市级集聚指数来讲,由于指数普遍较小,最大的只有0.1307,并且存在负数的情况;而在行业效率方面,各个行业的差距也很明显,由于这是一个相对值,最小的只有0.0025,最大的为1.0000,而平均值为0.2360;在女性占比方面,各个行业的差距也较明显,平均值为0.4185,但是极差较大,最大值可以取到0.8486,最小的只有0.0501,这可能是由于行业的性质决定的。基于以上对数据的描述统计,我们将借用计量工具对数据展开深入的分析并与此同时验证前文提出的假设。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈