社会统计学：统计表及其检验

时间：2023-08-05 理论教育版权反馈

【摘要】：定类变量表3.6 是根据上述家庭类型制作的定类变量的统计表。对于只有百分比的统计表，要写明统计总数。检验统计表是否正确可根据统计表中的总计来判断。例如，如果频率总计小于1，表示有的个案情况未能包括在统计表里，即变量取值不满足完备性；反之，如果频率总计大于1，则必有某些个案情况被同时统计在不止一类，即变量取值不满足互斥性。因此，只有频率总计等于1 时才能表示统计表中变量取值的分类是正确的。

社会统计学：统计表及其检验

表现数据分布的最常用方法就是统计表。简单地说，统计表就是将数据按照一定的顺序排列在由横行、纵列交叉结合而成的表格上。统计表能系统地组织和合理地安排大量的数据资料，使之清晰、明了，便于对照、比较和计算。

下面根据变量的层次，讨论统计表制作的特点。

（1）定类变量

表3.6 是根据上述家庭类型制作的定类变量的统计表。

统计表必须具备的内容有：

表的编号：如表1.1 或表1⁃1。

表的标题：用以简明扼要、准确地说明表的内容。

表头：其中第一列为变量名称，如表3.6 的“家庭类型”。第二列和第三列为变量对应数的说明，如表3.6 的“频次”“频率”等。

表身：由于变量取值的不唯一性，这部分至少要有两行以上。第一列位置，按行填写变量的不同取值，取值的顺序可以任意，这一项又称主词。第二列和第三列位置，按行填写变量取值相应的频次、频率等等，第二列以后的内容又称宾词。对于只有百分比的统计表，要写明统计总数。

表尾：如果引用的是间接资料，要写清资料来源。

检验统计表是否正确可根据统计表中的总计来判断。例如，如果频率总计小于1，表示有的个案情况未能包括在统计表里，即变量取值不满足完备性；反之，如果频率总计大于1，则必有某些个案情况被同时统计在不止一类，即变量取值不满足互斥性。因此，只有频率总计等于1 时才能表示统计表中变量取值的分类是正确的。但在实际计算中，由于“四舍五入”的缘故，百分比总和有时是100.1%或99.9%等，这些都不算错误。

表3.6　家庭类型户数的频次和频率分布

pagenumber_ebook=42,pagenumber_book=35

一般来说，问卷调查表中可供选择的答案就构成了表身中变量的取值内容。可供选择的答案数目就是表身中变量取值的数目。例如，性别有两种可供选择的答案：男和女，因此表身中的变量值也就是男和女两行。但在有关意愿、原因等可多选的社会调查中，可供选择的答案类别数目，有时与变量值的数目并不相等。例如，如果被调查者同时选择了两个选项，则决不能分别在两类选项中各统计一次，这样就破坏了变量取值必须互斥的要求。正确的做法是将挑中两类选项的被调查者另立一类。举例说，若问卷中有这样一个问题：“你认为人生最大的乐趣是什么？”，选项有：

a.事业上有成就。

b.美满的婚姻。

c.有丰富的经历、见多识广。

如果其中有被调查者选择的答案不止一个，同时选择a 和b，a 和c，或b 和c，这时分类应增加为6 种：

a.事业上有成就。

b.美满的婚姻。

c.有丰富的经历、见多识广。(www.xing528.com)

d.事业上有成就和美满的婚姻。

e.事业上有成就和有丰富的经历、见多识广。

f.美满的婚姻和有丰富的经历、见多识广。

只有这样，才能保证每一个被调查者只能被统计到其中的一类，从而满足变量互斥性的要求。但分类数的增加，势必造成每类频次的减少，从而增加了统计结果的偶然性。

（2）定序变量

定序变量统计表内容、制作方法与定类变量相同。所不同的是，由于定序变量的取值有大小次序之分，因此在统计表制作时，应保留其变化趋势，不要任意打乱。例如，某电影厂为了解群众是否爱看武打片，将喜爱程度分为五等：非常爱看；爱看；一般；不爱看；很反感。那么，在统计表中，变量取值的排列也应保持以上的次序（表3.7）。

表3.7　某电影厂对武打片的反映统计

pagenumber_ebook=43,pagenumber_book=36

（3）尺度变量

对于尺度变量，由于其取值很多，甚至有无穷多个，用简单表无法展现其分布特征和统计规律，这时可以采用分组表。分组表的主词是将变量的取值按一定的标准分组或分段形成的，如表3.8。主词中每个组的最大值称为组上限，最小值称为组下限，以第二组为例，9 为组上限，5 为组下限。

表3.8　2014 年全国分年龄段的人口数

pagenumber_ebook=44,pagenumber_book=37

说明：2014 年全国人口变动情况抽样调查样本数据，抽样比为0.822%。
资料来源：《2015 年中国统计年鉴》，中华人民共和国国家统计局。

由于尺度变量的取值很多，分组的多少、组限的确定都会影响对变量分布特征的展现。制作分组表的步骤如下：

第一，确定全距。全距就是变量观察值的最大值与最小值之差。变量的所有观察值都在全距的范围内分布。例如，在某市调查了883 人的住房面积，最小的为15 平方米，最大的为176 平方米，则这883 人的住房面积的全距为161 平方米。

第二，确定组数与组距。组数与组距的确定对于分组表的制作非常关键。组数太少，数据的分布就会过于集中，组数太多，数据的分布又会过于分散，这些都不便于观察数据分布的特征和规律。因此，组数的确定要根据全距的大小和观察值的个数综合考虑。观察值多，分组可以相对多一些。一般情况下，一组数据所分的组数不应少于5 组且不多于15 组，即5≤K≤15。实际应用时，可根据数据的多少和特点及分析的要求来确定组数。组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定，即组距＝（最大值－最小值）÷组数。考虑到计算方便，一般以2，3，5，10 或它们的倍数作为组距。在上述住房面积的例子中，可以考虑以20 为组距，大约分为10 组。

第三，确定各组的上下限。确定组限的原则是：最低组的下限要小于最小的观察值，最高组的上限要大于最大的观察值。尺度变量的取值数据有两种：一种是离散型数据，如年龄，通常取整数，在相邻的两个数之间不存在其他的数据；另一种是连续型数据，如身高，如果测量的单位可以达到无穷小，理论上任何两个数之间都有无穷多个数。使用这两类数据制作分组表时，组限的确定有一定的差异。如果是离散型数据，相邻组的上下限不能为同一数据，组上下限的确定如表3.8 所示。如果是连续型数据，如上述住房面积的例子中，上一组的下限与下一组的上限为同一个值（见表3.9）。此时，每一组的上下限中，有一个为实，而另一个为虚。习惯上以组的上限为实，下限为虚。如表3.9 中的60既是40～60 组的上限，又是60～80 组的下限。如果40 ～60 组中的60 是实的，则60 ～80组中的60 就是虚的，这个60 代表的意义比真正的60 多了一个无穷小。在这种情况下，取值与组上限相同的个体划归本组，与组下限相同的个体划归下一组。如住房面积恰好为60 的个体应划归40～60 组。

第四，登记各组中个体的频次，计算频率。上述工作完成以后，便将个体按照变量取值的大小划分到各组中，按照需要统计出频次、频率及累计频率等数据，并将统计出的数据置于相应的单元格内，绘制成分组表，如表3.9 所示。

表3.9　居民住房面积分布

pagenumber_ebook=45,pagenumber_book=38

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

建筑工程

经济发展

传统文化

民事诉讼

中国传统

程序设计

轨道交通

解决方法

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

社会统计学：统计表及其检验

相关推荐

社会统计学：统计表及其检验

有关社会统计学的文章

相关推荐