第二章 统计数据的搜集与整理
统计数据的搜集是统计工作的基础环节,是统计分析的前提。但搜集来的数据可能是杂乱无章的,要揭示出客观事物的规律性,就必须对数据进行整理。本章主要介绍统计数据搜集的方法以及不同类型数据的整理方法。
第一节 统计数据的搜集
统计数据的搜集是统计分析的前提,按照数据来源的不同可分为直接数据的搜集和间接数据的搜集。统计调查是取得数据的主要方法,本节首先介绍常用的统计调查方式,主要有普查、抽样调查、统计报表、重点调查和典型调查;其次介绍具体的数据搜集方法,主要有观察法、实验法、访问法、电话调查法和网络调查法等;最后介绍统计调查方案的设计及问卷设计。
一、统计数据的来源
从使用者的角度来看,统计数据的来源主要有两种渠道:一种是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称为原始或第一手统计数据;另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称为次级数据或间接统计数据。间接统计数据是从原始数据过渡而来的。
1.数据的直接来源——原始数据
搜集数据最基本的形式就是进行统计调查或进行实验活动。不论是统计调查还是实验,所搜集的数据都是原始数据,这是统计数据最基本的来源。调查是取得社会经济数据的重要手段,其中包括政府统计部门进行的调查,如人口普查、经济普查等,也有其他部门或机构为特定目的而进行的调查,如市场调查等,而把通过实验方法得到的数据称为实验数据。
2.数据的间接来源——二手数据
虽然统计数据的搜集主要是指对原始数据的搜集,但是在很多情况下,统计研究都是在掌握次级数据的基础上进行的。在统计数据搜集的过程中,有时很难通过直接调查或实验取得所需的第一手数据。此时可以通过一定渠道获取别人调查或科学实验所取得的统计数据,这便是第二手资料或称为间接资料。这种来自他人调查整理基础上的数据称为数据的间接来源。
间接数据主要是调查人员通过搜集多种文献资料,摘取现成数据,通过整理、融合、调整、归纳形成的。这些文献资料有些是公开出版的,有些是未公开的。在我国,公开出版的社会经济统计数据主要来自国家和地方的统计部门以及各种报刊媒介。例如,《中国统计年鉴》《中国统计摘要》《中国社会统计年鉴》《中国工业经济统计年鉴》《中国农村统计年鉴》《中国人口统计年鉴》《中国市场统计年鉴》,以及各省、市、地区的统计年鉴等。另外还有提供世界其他国家社会和经济数据的出版物,如《世界经济年鉴》《国外经济统计资料》等。联合国的有关部门及世界各国也定期出版各种提供其社会和经济的统计数据。
除上述公开出版的统计数据外,还可以通过其他渠道获取一些统计数据,如广泛分布在各种报刊、杂志、图书、广播、电视等传媒中的各种数据资料。随着计算机网络技术的发展和普及,通过网络来获取所需的各种数据资料将是获取间接统计数据的一种重要渠道。
恰当地运用间接数据在实际中往往能够节约时间和费用,取得较好的成果和效益。因此,间接数据成为许多统计研究人员在进行实证分析时的首要数据来源。但在应用时要注意:①了解并正确理解间接数据中变量的含义、计算口径、计算方法,以防止误用、错用他人的数据;②引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权。
二、统计调查方式
统计调查是根据调查的目的与要求,运用科学的调查方法,有计划、有组织地搜集统计数据资料的过程。常用的统计调查方式与技术有:
1.普查
普查是为特定目的而专门组织的一次性全面调查,用来调查属于一定时点或时期内的社会经济现象的总量。它适用于搜集某些不能或不适宜于全面统计报表搜集的统计资料,以摸清重大的国情、国力,如人口普查、农业普查、工业普查、经济普查、第三产业普查、基本单位普查等。
目前,我国通过普查进行的统计调查其内容和时间周期已经规范化、制度化,具体内容如表2-1所示。
表2-1 我国普查基本情况表

普查一般遵循以下几个原则:
(1)确定普查的标准时间:普查的标准时间是指登记调查单位项目所依据的统计时点。所有的调查资料都必须是反映这一时点上的情况。例如,我国第六次人口普查,2010年11月1日0时为普查登记的标准时点。凡是在这个时点以前死亡和这个时点以后出生的,都不能计入这次普查的人口数内,这样才可避免重复登记或遗漏。
(2)普查的登记工作应在整个普查范围内同时进行,以保证普查资料的实效性、准确性,避免资料的搜集工作拖得太久。
(3)同类普查的内容和时间在历次普查中应尽可能保持连贯性。
普查的资料全面、详尽、系统,是一次性的专门调查,但由于普查的工作量大,耗资也多,时间周期较长,一般不宜经常举行。
2.抽样调查
抽样调查是指按照随机原则,从总体中抽取一部分单位作为样本进行观察,并根据其观察的结果来推断总体数量特征的一种非全面调查方法。抽样调查的经济性好、实效性强、适应面广、准确性高。
抽样调查具有如下特点:①样本单位按随机原则抽取。随机抽样一般是指每个总体单位都有同等被抽中的机会,使得样本结构和总体结构保持一致,从而提高样本的代表性,降低抽样误差;②能够根据部分调查的实际资料对调查对象的总体数量特征进行推断,从而达到对调查总体的认识;③在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制。
通常采用的抽样组织形式主要有以下几种:
(1)简单随机抽样:又称为纯随机抽样,是指对总体不作任何处理,完全按照随机的原则,直接从总体中抽取样本单位加以观察。从理论上说,简单随机抽样最符合随机原则,是抽样调查的最基本形式。具体方法有抽签法和随机数字表法。
(2)分层抽样:又称为类型抽样或分类抽样,是指先将总体各单位按主要标志加以分层,而后在各层中按随机的原则抽取若干单位构成样本。
(3)等距抽样:又称为机械抽样或系统抽样,是指将总体全部单位按某一标志排队,而后按固定的间隔从总体中抽取若干样本单位,构成一个容量为n的样本。
(4)整群抽样:是指将总体各单位划分为若干个群,然后以群为单元,从总体中随机抽取一部分群,对被抽中的群内所有单位进行全面调查。
(5)多阶段抽样:当总体很大时,可把抽样过程分成几个过渡阶段,到最后才具体抽到样本单位。
以上这几种抽样调查的组织形式将在第六章详细介绍。
3.统计报表
统计报表制度是按照国家统一规定的调查要求与程序自下而上地提供统计资料的一种报表制度。统计报表是一种以全面调查为主的调查方式,是由政府主管部门根据统计法规,以行政手段自上而下布置,而后由企事业单位自下而上层层汇总,逐级提供基本统计数据的一种调查方式。
对于大型、国有企业来说,利用统计报表搜集数据,具有时间快、成本低的优点,但对于大量的小型、非国有经济单位,则难以全面采用统计报表调查。
统计报表主要有三个特点:①有利于基层单位对生产、经营活动进行监督和管理;②便于领导部门掌握其管辖范围内的基本情况;③便于积累历史资料,有利于开展动态分析。由于统计报表一般是经常性调查,且调查项目比较稳定,因而可根据需要积累研究对象较长时期的发展资料,从而形成时间数列,以分析现象发展变化的速度和规律。
4.重点调查
重点调查是在调查对象中选择一部分重点单位进行的一种非全面调查。所谓重点单位,是指在全部总体单位中出现的频数较少,但其某一数量标志值却在所要研究的数量标志值总量中占有很大比重的单位。因此,当只要求掌握事物的基本状况与基本的发展趋势,而不要求掌握全面的准确资料,而且在总体中确实存在重点单位时,进行重点调查是比较适宜的。例如,要了解全国铁路的运输情况,选择北京、上海、沈阳、郑州、兰州、广州、武汉等枢纽站进行调查,就可以掌握全国铁路运输的基本情况,因为全国铁路客、货运输量大多集中在这些枢纽站。
重点调查的主要特点:①主要了解调查对象的基本情况;②重点单位的选择着眼于它在所研究对象标志总量中所占的比重;③不宜于推断总体全面数据。虽然重点单位的标志值在总体标志总量中占有绝大比重,了解了它们的情况,就等于了解了总体的基本特征,但重点单位的这些情况毕竟不能完整地说明总体总量,不具备推断总体总量的条件。因此,重点调查适宜于获取反映总体基本情况的统计资料,不宜于推断总体指标。
5.典型调查
典型调查是一种非全面的专门调查,它是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行调查。例如,要研究工业企业的经济效益问题,可以在同行业中选择一个或几个经济效益有代表性的单位做深入细致的调查,以探寻该企业经济效益形成的过程、原因和特点。
典型调查的主要作用:①补充全面调查的不足;②在一定的条件下可以验证全面调查数据的真实性。典型调查同其他调查方法相比较,具有灵活机动,通过少数典型即可取得深入、翔实的统计资料的优点。但是这种调查由于受到“有意识地选取若干有代表性的单位”的限制,在很大程度上受人们主观认识的影响,因此,必须同其他调查方式结合起来使用,才能避免出现主观片面性。
三、搜集数据的基本方法
根据调查方式与技术,确定了调查单位之后,就要对这些单位实施调查,即从调查单位那里得到所需要的数据,可以采用不同的方法。这些方法主要有以下几种:
1.观察法
观察法是指调查者有目的、有计划地深入调查现场,直接观察和记录被调查对象的行为或状态,以收集资料的一种方法。其观察对象是当前已存在或正在发生的客观现象,观察的客观现象处于一种自然状态,没有人为制造的假设,故其调查结果真实、自然,直接性强。
观察法的主要优点:①可以实地记录客观现象的发生,能够获取直接、生动的资料,对客观现象的实际过程和当时的环境气氛都可以了解;②收集到的信息在大多数情况下是客观的,无需征得被调查者的同意;③对被调查者的配合与否及其能力大小没有要求;④其观察结果真实、客观、有说服力。
观察法的主要缺点:①调查成本较大,花费的时间较长,观察过程受时间限制;②调查结果往往受观察人员本身素质的影响,而且结果难以进行量化统计分析;③观察法只能观察表面现象,无法了解深层次的情况,因而无法获取观察现象的内在信息。
2.实验法
实验法是直接获得统计数据的又一重要来源。通过实验法得到的数据就是实验数据。实验法不仅是一种搜集数据的方式,也是一种重要的研究方式。它是通过有意识地改变或控制某些输入变量,观察其他输出变量的变化,从而达到对事物本质或相互联系的认识。在实验中,往往需要将研究对象分为两个组,一个是实验组,一个是对照组,对实验组的输入变量加以控制或改变,而对对照组则不加控制,根据两组的输出结果,可以看到输入变量对输出变量的影响。
运用实验法要注意的是:首先,实验组和对照组的产生应当是随机的,研究对象的不同单位应当被随机地分配到实验组或对照组,而不应是经过有意识地挑选的。其次,实验组和对照组还应当匹配,也就是研究对象的背景资料应当是大体相同的,至少不要差异太大。
3.访问法
访问法是指调查者与被调查者通过面对面的交谈,从而得到所需资料的调查方法。访问法是由调查人员和受访者自由交谈,以获取所需的资料,在市场调查和社会调查中常用访问调查这种形式。在一些动机研究及较隐秘问题的研究中,有时也采用个别深度访问法。在访问中,调查人员要运用大量的追问技巧,让受访者最大限度地自由发挥,尽可能地表达他的想法和感受。个别深度访问常用于消费者购买某种产品的动机、个人隐私问题以及一些较敏感的问题等。
4.电话调查法
电话调查法是指调查人员通过电话向被调查者进行询问,从而获取信息,搜集数据的一种调查方法。电话调查可以按照事先设计好的问卷进行,也可以针对某一专门问题进行电话采访。由于彼此不直接接触,而是借助于电话这一中介工具进行,因而可以用于那些不能当面调查的隐私性问题及敏感性问题。
电话调查法的优点:①时效快,费用低;②覆盖面广,可以对有电话的任何地区、单位和个人进行调查;③对于那些不易见到面的被调查者,如某些名人,采用此方法有可能取得成功;④借助计算机辅助电话系统,有利于访问质量的控制。
电话调查法的缺点:①通话时间受到限制,调查内容的深度远不及其他调查方法;②电话调查的结果只能推断有电话的对象这一总体,不利于资料收集的全面性和完整性;③回答率比面访调查要低;④电话调查容易受到语音障碍的影响。因此,电话调查法适用于对突发事件和热点问题及不易接触到的特殊对象进行调查。
5.网络调查法
网络调查也称为网上调查,是指在互联网上针对调查问题进行调查设计,以收集资料的一种调查方法。随着网络技术的发展以及电脑的普及,在统计调查中不仅调查的数据可由电脑来处理完成,整个调查的过程也可由电脑来控制并完成。
网络调查法的优点:①组织简单、费用低、效率高;②被调查者容易打消顾虑,真实地回答问题,调查的可靠性和客观性比较有保障;③能迅速通过网络传播调查结果,调查速度较快;④能设计出网上问卷,被调查者可以在互联网上用文字、图形和其他表现形式,做出选择回答,有利于增强调查效果;⑤网络调查可以24小时进行,没有时空限制。
网络调查法的缺点:①样本缺乏代表性,网络调查的对象仅限于网民,而目前我国的网民主要集中在城市,以年轻人居多,并且愿意在网上回答问题的网民往往是比较悠闲的人,造成了样本的极大偏差;②网上调查获取的资料需要去伪存真;③不适合开放性问题的调查。
总之,搜集数据的不同方法各有特点,在考虑数据的搜集方法时,需要综合考虑实施调查的资源条件、对数据的质量要求、回答率等问题,从而做出合理的选择。四、调查方案设计
在统计调查工作正式开始之前,需要制定出一个完整、周密的调查方案,以指导整个调查工作,使调查得以顺利进行。调查方案是指导整个调查过程的纲领性文件,其内容主要包括以下几个方面:
1.调查目的
在调查方案中,首先应明确本次调查的目的。调查目的是调查所要达到的具体目标,它所回答的是为什么调查,要解决什么样的问题,调查具有什么样的社会经济意义等。在这些问题明确之后,我们才能确定向谁调查,调查什么以及采用什么方法进行调查。调查的目的和任务主要是根据实际需要以及调查对象本身的特点来确定。
2.调查对象和调查单位
确定调查对象和调查单位就是要确定向谁调查,由谁来提供所需的数据。调查对象是根据调查目的确定的所必须进行调查研究的现象总体。它是由性质相同的许多个别现象组成的。确定调查对象,首先要根据调查目的对研究对象进行认真分析,掌握其主要特征,科学地规定调查对象的含义;其次要明确规定调查对象的范围,划清它与其他社会现象的界限。只有这样,才能避免登记重复或遗漏,保证统计资料的准确性。
调查单位是指在某项调查中登记其具体特征的单位,即构成调查对象中的每一个单位。它是调查项目和标志的承担者或载体,是我们搜集数据的基本单位。例如,调查目的是为了获取某地区国有工业企业的产值,调查对象就是该地区的所有国有工业企业,调查单位就是构成国有工业企业这一总体的每一个国有工业企业。明确调查单位,还必须把它与填报单位区别开来。填报单位是指负责提供调查资料的单位,调查单位则是被登记其特征的单位,它可以是个人、企事业单位,也可以是物。根据调查目的,调查单位与填报单位,有时一致,有时不一致。如在工业企业普查中,每个工业企业既是调查单位又是填报单位;而在工业企业生产设备状况的普查中,调查单位是工业企业的每一台设备,填报单位是每家工业企业。
3.调查项目和调查表
调查项目就是调查中所要登记的调查单位的特征,也就是需要被调查者回答的具体问题。它可以是调查单位的数量特征,如人的年龄、收入,企业的产量、产值等;也可以是调查单位某种属性或品质特征,如人的性别、职业,企业所属的行业类别等。调查项目必须明确具体,不可模棱两可、含糊不清。在确定调查项目时需要注意:可有可无和备而不用的项目不能列入;调查项目之间应彼此衔接、相互联系,不能相互重复、相互矛盾。
调查表是表现调查项目的表格。调查表一般有两种形式,一种是一览表,另一种是单一表。一览表是能够登记多个调查单位资料的调查表。在调查项目不多时,采用该类表式。它较为简便,便于合计和核对数据。单一表是只登记一个调查单位资料的调查表。它可容纳较多标志,它便于分类整理,一般在调查项目较多时使用。统计调查中采用哪一种表式,是由调查目的、调查任务确定的。
4.调查时间
统计调查时间包括两个方面的含义,即调查时间和调查期限。调查时间是指调查资料所属的时间。在统计调查中,如果所调查的是时期现象,就要明确规定调查资料所属时期。例如,2013年我国国内生产总值调查,则调查时间是从2013年1月1日起到2013年12月31日为止,共计1年。如果所要调查的是时点现象,调查时间就是规定的统一标准时间,如我国第六次人口普查的标准调查时点是2010年11月1日0时。
调查期限是整个调查工作的起止时间,包括收集资料和报送资料等全部工作所需要的时间。为了确保资料的时效性,调查期限不宜过长。例如,对某市2013年企业的生产经营成果进行调查,资料呈报时间是2014年1月31日,从2014年1月1日开始调查,到2014年1月31日截止,则调查期限是1个月。
5.调查的组织实施
统计调查成功实施必须要有严密细致的组织工作。调查的组织实施主要包括以下内容:必要调查工具的准备;调查人员的组织与分工;调查人员的培训、文件资料的印发;调查经费的预算及开支办法等。
五、问卷设计
问卷调查法是一种比较重要的调查方法,在实践中被大量地运用。问卷就是把所要调查的问题,也就是前述调查方案中的调查项目列在一张表格上,这张表就叫调查问卷。按照问卷填答者的不同,可分为自填式问卷调查和代填式问卷调查。其中,自填式问卷调查,按照问卷传递方式的不同,可分为报刊问卷调查、邮政问卷调查和送发问卷调查;代填式问卷调查,按照与被调查者交谈方式的不同,可分为访问问卷调查和电话问卷调查。
在进行问卷调查之前,必须设计一份比较有效的调查问卷。一份完整的调查问卷包括引言、填写说明、问题与答案3个组成部分。
(1)引言。引言是问卷调查的自我介绍部分。引言的内容应该包括:调查的目的、意义和主要内容,选择被调查者的途径和方法,对被调查者的希望和要求,填写问卷的说明,回复问卷的方式和时间,调查的匿名和保密原则,以及调查者的名称等。引言一般放在问卷第一页的上面,也可单独作为一封信放在问卷的前面。例如,下面是为了了解教师多媒体教学的使用效果的调查问卷的引言:
尊敬的同学:
你好!
为了了解我校教师多媒体教学的使用效果,我们受学校的委托正在全校展开抽样调查,目的是研究多媒体教学的优势及存在的主要问题,为我校教师提高教学水平提供参考依据。调查结果不记名、不涉及单个问卷的内容,只是用于全部资料的综合统计。
非常感谢你的大力支持与合作。谢谢!
(2)填写说明。填写说明也称指导语,类似于产品的使用说明书。它一般是针对比较复杂的问卷,对填表方法、要求、注意事项等做一个总的说明。
(3)问题与答案。问题与答案是问卷的主体,是问卷中最重要的组成部分。
问卷中的问题有两种形式,一种是封闭式问题,另一种是开放式问题。
所谓封闭式问题,是指将问题的几种主要答案甚至一切可能的答案全部列出,然后由被调查者从中选取一种或几种答案作为自己的回答。封闭式的问题,具体方式多种多样,其中常见的有以下几种:
第一,填空式,即在问题后面的横线上或括号内填写答案的回答方式。例如,您的职业_____;您有( )个孩子。
第二,单项式,要求被调查者对所给出的问题选定其中的一项。例如,您本人每月的平均收入是:
①1 000元以下 ②1 000~2000元 ③2 000~5000元
④5 000~10 000元 ⑤10 000~20 000元⑥20 000~30 000元
⑦30 000元以上
第三,多项式,要求被调查者在所给出的问题答案中,选出自己认为合适的答案,可多选。例如,
您运动的主要项目为:
①各种球类 ②田径 ③游泳 ④健身器材 ⑤舞蹈 ⑥其他
第四,顺序式,即列出若干种答案,由被调查者给各种答案排列先后顺序的回答方式。
例如,
您当前在农业生产中经常遇到的困难有哪些?(请按困难程度给下列问题编号,困难最小的为1,最大的为8)
资金不足
缺乏技术
土地划分不当
生产资料供应不畅
剩余劳动力无出路
买难卖难
各种摊派过多
信息闭塞
另一种是开放式问题。只是提出问题,要求被调查者根据自己的想法自由回答。例如,
请问您认为我校图书馆在使用过程中存在的主要问题有哪些?
开放式问题的最大优点:灵活性大、适应性强,特别适合于回答那些答案类型很多、或答案比较复杂或事先无法确定各种可能答案的问题。同时,它有利于发挥被调查者的主动性和创造性,使他们能够自由表达意见。一般地说,开放式回答比封闭式回答能提供更多的信息,有时还会发现一些超出预料的、具有启发性的回答。
开放式问题的缺点:回答的标准化程度低,整理和分析比较困难,会出现许多一般化、不准确、无价值的信息。同时,它要求被调查者有较强的文字表达能力,而且要花费较多填写时间。
一份好的调查问卷,在设计时除了包含这3个组成部分外,还应该注意问题的排序、问题的内在逻辑性,一般把开放式问题放在最后。目前,在抽样调查中,问卷调查的使用范围非常广泛。其优点是节省时间、经费和人力,调查结果容易量化,便于统计处理与分析,可以进行大规模的调查。但问卷调查法也存在一些问题,如调查问卷设计难度大、调查结果广而不深、调查结果的质量常常得不到保证及回收率低等。
本节介绍了统计调查的方式、搜集数据的基本方法、调查方案的设计以及问卷设计,这些概念之间的关系是,无论是哪种调查方式(普查、抽样调查、统计报表、重点调查、典型调查)都需要设计一个完整的调查方案,在调查方案中要明确采用何种调查方法(观察法、访问法等)以及调查的项目,并把这些项目用表格的形式反映出来,这张表格就是调查问卷。
第二节 统计调查误差
统计数据的误差通常是指通过调查搜集到的数据与研究对象真实结果之间的差异。任何调查都不可避免地存在误差,全面调查只存在非抽样误差,而抽样调查既存在抽样误差也存在非抽样误差。
一、抽样误差
抽样调查的目的是要根据样本统计量来推断总体参数。但是,抽样调查抽中的只是总体中的部分单位,而不是全部。由部分单位得到的样本统计量和总体参数之间不可能完全相等,总会存在一定的误差,这种误差就是抽样误差。抽样误差在全面调查中不存在。
在实际抽样中,根据随机原则抽取样本,可能抽中由这样一些单位组成的样本,也可能抽中由另外一些单位组成的样本。根据不同的样本,可以计算得到不同的样本统计量。对于既定的总体而言,总体参数是唯一的,但样本统计量是随机变量,因此抽样误差也是一个随机变量。
抽样误差的大小与多方面的因素有关:最明显的是样本容量的大小,样本容量越大,抽样误差就越小;抽样误差的大小还与总体的变异性有关,总体的变异性越大,抽样误差也就越大;抽样误差还与抽样的方式方法有关,不重复抽样比重复抽样的抽样误差小。抽样误差的大小反映样本统计量对总体参数的代表性大小,因此抽样误差也称为代表性误差。
在进行抽样调查时不可避免会产生抽样误差,因为从总体中随机抽取的样本,其结构不可能和总体完全一致。虽然抽样误差不可避免,但可通过抽样设计加以控制。
二、非抽样误差
非抽样误差是相对于抽样误差而言的,是指除抽样误差之外,由于其他原因造成的样本观察结果与总体真值之间的差异。抽样误差是一种随机性误差,只存在于概率抽样中,非抽样误差则不同,无论是在概率抽样还是在非概率抽样中,都可能产生非抽样误差。非抽样误差主要包括抽样框误差、无回答误差和计量误差3大类误差。
1.抽样框误差
抽样总体的具体表现是抽样框,理想抽样框的标准是目标总体和抽样总体完全吻合。而在实践中由于设计或是资料本身等方面的原因,目标总体与抽样总体往往不一致,无法保证样本的代表性,而且由于目标总体单位数不准确,对总体进行估计时就会产生估计量偏倚,增大其方差。这种误差并不是来自抽样的随机性,而是产生于不完善的抽样框,因此称为抽样框误差。抽样框误差产生的途径包括以下几个方面:
(1)丢失目标总体单位。丢失目标总体单位也称为“涵盖不足”,是指抽样框没有覆盖全部目标总体单位,有些目标单位没有在抽样框中出现,因而也就没有机会被选入样本,这些单位成为丢失目标单位。
(2)包含非目标单位。包含非目标单位也称为“过涵盖”,是指抽样框中包含了一些不属于研究对象的非目标总体单位。这种偏差的影响很大,但是潜在威胁通常会小一些。因为可以在调查中辨认出非目标元素并把它们剔除。一般情况下,由于抽样框中存在非目标总体单位,容易造成估计量的高估。
(3)复合连接。复合连接是指抽样框单元与目标总体单元不完全一一对应,而是存在一对多、多对一或是多对多模式的现象。在前一种模式中,若进行简单随机抽样,能保证每个目的总体单位以同等的可能性被抽中。在后两种模式中进行简单随机抽样,每个目的总体单位被抽中的概率是不同的,从而使估计量产生偏斜。例如,若某银行想了解其客户的情况进行一次抽样调查,则该行所有客户构成目的总体。选择的抽样框是银行的来往账目,这就构成了多对一模式。若在这个框中进行抽样,则来往账目多的客户被抽中的可能性则较大,反之来往账目少的客户被抽中的可能性很小,而两种客户通常会有较大差异,从而造成样本的偏斜,使估计量产生偏差。
(4)不正确的辅助信息。不正确的辅助信息误差也称为“内容上的偏差”,这种误差的主要影响是降低估计的精度。许多抽样框中包含了辅助信息,可用于特殊的抽样设计和估计技术。可用这些辅助信息来进行分层抽样,对规模大小的测度用于与规模成比例的概率抽样。如果辅助信息的特征与研究的调查变量的特征高度相关,还可以用于比率估计和回归估计。但是这些辅助信息可能有错误,或者是一些抽样单位不具备辅助信息,那么就会对抽样精度产生巨大的影响。
(5)抽样框老化
抽样框老化又称为“抽样框过时”或“不准确的抽样框”,是指随着时间的推移,抽样总体与目标总体产生极大的偏差,即原来的抽样框不符合实际情况,必须进行更新。最典型的例子,就是随着城市建设的大规模展开,许多地区已被改造,地址发生了变化,如果仍按以前的抽样框去抽样,那么精度就会难以控制。
2.无回答误差
所谓无回答误差,是指数据缺失所造成的误差。数据缺失的原因有两种,一是有意不回答,二是无意不回答。有意不回答,主要指被调查者拒绝访问或拒绝就某一个问题给予回答。无意不回答则可能受访者不在家或者是访问者疏忽,导致数据遗漏。无回答误差比较普遍,是影响统计数据质量和利用效益的一个重要因素。
无回答误差产生的原因有很多,归纳起来主要有以下几点:
(1)抽样遗漏。所谓抽样遗漏就是抽样过程中没有抽到一些本应调查的抽样单位,这在邮寄调查中最普遍。邮寄调查最大的缺陷就是愿意回答和不愿意回答的人有不同的特征值,而不愿意回答的调查人群中有相当部分应该在被调查的范围之内。这种误差产生的后果是比较严重而且非常难以调整的。
(2)无法查找到被访对象。无法查找最主要的原因是被访对象的地址不确切或者已经迁移,调查人员不熟悉地址等,导致无法寻找到被访对象。
(3)被迫放弃调查。虽然已经接触到被访者,但因为种种原因被迫放弃调查。被迫放弃的原因很多,首先是访问者拒访,这占了被迫放弃误差的绝大多数。另外,被迫放弃还有几种可能,比如,被访者因为健康原因不能接受或完全接受采访。调查开始后被调查者对某些问题不愿意提供答案,或调查员由于粗心遗漏某些项目,由于某种原因调查中断等。
3.计量误差
计量误差是指由于种种原因,调查中所获得的数据与其真值不一致。由于造成这种不一致的原因有很多,因此计量误差涵盖的内容非常广泛。计量误差的来源主要有以下几个方面:
(1)设计不周引起的误差。如果调查设计不细致、不周全,就可能引起计量误差。一方面是问卷设计带来的误差,如调查问卷中用词不准确或不适当,造成被调查者不理解或误解;问卷过长使被调查者厌倦,不再认真接受调查;问卷中问题的排列顺序对回答可能产生的影响等。因此,设计一份好的调查问卷对提高数据质量起着十分重要的作用。另一方面是抽样过程可能引起的误差。严格按随机化程序抽取样本单元是概率抽样的基本原则。例如,如果设计要求随机抽取被调查户中一个成年人接受调查,就需要由专门的程序保证其实现。为此,基什(L.Kish)还专门设计了这种情况下的抽选表,其方法是先将户中所有成年人按先男后女、年龄从大到小的顺序排列,然后根据该户成年人的人数及表中所列的数字来确定户中哪一位成年人为被调查者。否则,如果只是随便地抽一个成年人,经常在家的被抽中的可能性就大,从而造成估计偏倚。
(2)被调查者误差。在计量误差中,被调查者误差是最重要的一种,这是指被调查者在调查过程中没有给出真实的回答。可以把被调查者误差划分为两类:无意识误差和有意识误差。无意识误差的主要表现是回忆误差,指对调查内容记忆不清而回答失真,无意识误差还包括“倾向性数字”。心理学研究表明,人们在回答数字问题时,常常会下意识地给出一些倾向性数字,如调查吸烟者每天的吸烟量,回答往往是一包、半包或十支。无意识误差可以看作是随机的,不会带来估计偏倚;有意识误差则不然,由于它存在倾向性,因此会导致严重的估计偏倚。
(3)调查者误差。调查者误差是指由于调查员的原因而引起的误差。这种误差有的是由于调查员工作不认真,如计量错误等造成的;有的则是调查员在调查过程中,将自己的思想、观点、看法、感受等与被调查者交流,对被调查者的回答起了“诱导”作用。
(4)其他误差。计量误差的产生还有其他一些途径,如测量工具、编码、录入等。测量工具:在需要利用测量工具进行的调查中(如学生视力调查中与测量表的距离和光线等),如果测量工具不准,就会对测量结果带来偏误。即便测量工具是精确的,反复测量也会产生随机误差。编码:编码的作用是把数据变为可机读的形式。编码错误不仅仅中指具体的编写错误,也包括对编码结果的错误理解。特别是对于调查中开放性问题的编码,同样的内容,由于理解不同,不同编码员的编码结果可能不同。录入:任何优秀的录入员也难以做到数据录入过程中不发生任何错误。
三、误差的控制
在统计数据的搜集过程中,无论采用哪种调查方法,都会导致搜集的数据与真实数据之间存在或大或小的差距,这种差距被称为统计数据的误差。如果误差过大,必然会影响统计分析的质量,因此,有必要对误差进行有效的控制。
抽样误差是由于抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。但抽样误差可以事先计算并加以控制,进行控制的一个主要方法是改变样本量,一般来说,样本量越大,抽样误差就越小。
非抽样误差与抽取样本的随机性无关,因此在概率抽样和非概率抽样中都会存在。非抽样误差控制的重要方面是调查过程的质量控制,包括搞好问卷设计,调查员的挑选,调查员的培训,督导员的调查专业水平,调查过程控制,调查结果进行检验、评估,对现场调查人员进行奖惩的制度等。
第三节 统计数据的整理
通过统计调查,我们得到了许多原始数据,但这些数据只是反映总体单位特征的、分散的、不系统的数据,为此必须对这些原始数据进行整理,使我们得到反映总体特征的、系统的统计数据。本节主要介绍不同类型数据的整理方法及次数分布的类型。
一、统计整理的概念及内容
1.统计整理的概念
所谓统计整理,就是根据统计研究任务的要求,对所收集到的资料进行科学的加工整理,使之系统化、条理化的工作过程。统计整理介于统计调查和统计分析之间,在统计工作中起着承上启下的作用。它实现从个别单位的标志值向反映总体数量特征的指标值过渡,使人们对社会经济现象从感性认识上升到理性认识。
2.统计整理的内容
统计整理通常包括以下几个方面的内容:统计数据的审核、统计数据的汇总、统计数据的分组、统计数据的筛选、统计数据的排序、统计数据的显示。
(1)统计数据的审核。统计数据的审核就是检查数据有无错误,包括对原始资料的审核及二手资料的审核。对于原始资料而言,主要审核其完整性和准确性,完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全;准确性审核主要是检查数据是否有错误,是否存在异常值,对于异常值要仔细甄别。对于二手资料的审核内容已如前述,这里不再赘述。数据审核的方法有计算审核和逻辑审核,计算审核就是对调查来的原始资料重新计算,看看数据的计算是否正确;逻辑审核主要是审核调查表的各个项目之间是否符合逻辑,对于审核出来的错误,要么由审核人员代为更正,要么重新调查。
(2)统计数据的汇总。统计数据的汇总就是把调查得来的各部分数字加总求和。在经济实践中,对于汇总的数字要保持计算方法、计算口径、计量单位等方面一致才能进行汇总。
(3)统计数据的分组。统计数据的分组就是根据统计研究任务的要求和研究现象总体的内在特点,把现象总体按某一标志划分为若干性质不同但又有联系的几个部分。统计分组不但是统计数据整理的方法,而且也是统计数据分析的方法,在经济实践中被广泛地运用着,这一分析方法的优点是简单明了,其主要作用是分析现象的类型、分析现象的内部结构、分析现象之间的依存关系。分组的基本原则是按照不同的标志分组,体现组内的同质性和组间的差异性。
统计分组按分组标志的性质不同,可分为品质分组和数量分组。品质分组是将总体按品质标志进行分组,如企业按经济成分、地理位置分组,职工按性别、文化程度分组等;数量分组是将总体按数量标志进行分组,如企业按职工人数、劳动生产率分组,职工按工龄、工资分组等。
在分组过程中,分组标志的选择是统计分组的关键。分组标志,即将同质总体区分为不同组的标准或依据。分组标志一旦选定,就必然突出了总体在该标志下的性质差别,其他的差别就看不见了。分组标志选择不当,不但无法显示现象的根本特征,甚至会混淆事物的性质,歪曲社会经济的真实情况。正确选择分组标志,必须根据统计研究的任务目的,抓住反映现象本质区别和内在联系的标志作为分组标志。
第一,品质标志分组。分类型数据和顺序型数据都是按照事物的性质和属性划分的,因而又称为按品质标志分组。品质标志分组方法一般较简单,分组标志一旦确定,组数、组名、组与组之间的界限也就确定了。有些复杂的品质标志分组可根据统一规定的划分标准和分类目录进行。在实际工作中,为了便利和统一,联合国及各个国家都制定有适合一般情况的标准分类目录,如我国就有《国民经济行业分类目录》《工业部门分类目录》《商品目录》等。
第二,数量标志分组。数值型数据是按照事物的数量标准划分的,又称为按数量标志分组。数量标志分组包括单项式分组和组距式分组。对于离散型的变量,如果变量值的变动幅度较小,就可采用单项式分组,如居民家庭按儿童数或人口数分组。如果离散变量的变动幅度很大,变量值的个数很多,则应该把整个变量值依次划分为几个区间,区间的距离称为组距,这样的分组称为组距式分组。在组距式分组中,相邻组既可以有确定的上下限,也可将相邻组的组限重叠。连续变量由于不能一一列举其变量值,只能采用组距式的分组方式,且相邻的组限必须重叠。如以总产值、商品销售额、劳动生产率、工资等为标志进行分组,就只能采用相邻组限重叠的组距式分组。
在组距式分组中,可以采用等距分组,也可以采用不等距分组。等距分组是各组保持相等的组距,也就是各组标志值的变动都限于相同的范围。不等距分组是各组组距不相等的分组。统计分组时采用等距分组还是不等距分组,取决于研究对象的性质特点。在标志值变动比较均匀的情况下宜采用等距分组,在标志值变动很不均匀的情况下宜采用不等距分组。
合理的统计分组能够正确地反映客观事实,凸显数据的内在规律性。针对不同的数据类型,统计整理的方法有一定的区别。
(4)统计数据的筛选。统计数据的筛选是根据需要找出符合特定条件的某类数据。例如,筛选出考试成绩不及格的学生、筛选出成绩在90分以上的学生等。
(5)统计数据的排序。统计数据的排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征,找到解决问题的线索。在某些条件下,排名本身就是一种分析方法,例如,美国的《财富》杂志每年在世界范围内排出500强企业。汽车按销售量排名为消费者更好地选择提供了有效的参考,消费者在购买商品之前总是想了解商品的销量排名,以便更好地做出决策。除此之外,还有如学生按考试成绩排名、员工按姓氏笔画排序,等等。
(6)统计数据的显示。统计数据的显示主要有统计表和统计图,这方面的内容在本章的第四节中详述。
在以上所介绍的数据整理的内容中,统计分组和统计资料的显示所涉及的内容较多,需要专门介绍,本节先介绍不同类型数据的分组方法,第四节介绍统计数据的显示方法。
二、分类型数据的整理
分类型数据不考虑类别之间的顺序,可以根据统计研究的目的和研究对象的特点,将被研究的统计总体划分为几个不同的组成部分,比如,把学生按性别或籍贯分组、把企业按所有制形式分组等,对分类数据的整理主要计算的是频数和频率。所谓频数就是各类当中总体单位的个数,如表2-2中学生的人数就是频数。各组频数与总频数的比值,称其为频率或比重,其中男生的比重41.7%就是频率。频率应满足两个条件:各组频率大于(或等于)0而小于1;各组频率之和等于1或100%。
表2-2 某班学生按性别分组

三、顺序型数据的整理
顺序型数据考虑了类别之间的顺序或差异,比如,按职称把大学教师分为助教、讲师、副教授和教授4个组。顺序型数据的整理不仅可以应用前述分类型数据的整理方法,还可以计算累计频数和累计频率。其中累计频数分为向上累计和向下累计,向上累计是把各组频数按照由低到高的顺序进行的累计,向下累计是把各组频数按照由高到低的顺序进行的累计。
表2-3 某系大学教师职称频数分布表

四、数值型数据的整理
对数值型数据的分组就是要通过数值的不同来反映事物性质的差异。数值型数据分组有单项式分组和组距式分组。
1.单项式分组
所谓单项式分组就是指数据的每一个组是以一个具体的数值表示的。在单项式分组条件下的频数分布称为单项式频数分布,又称为单项数列。单项式分组就是一一列举有限的变量值,用一个变量值作为一个组的分组形式。比如,对被调查住户按家庭就业人数分组,可分为0个、1个、2个、3个等4个组。单项式分组适合于离散型变量并且变动范围不大的情形,因为只有这种情形才可能一一列举有限的变量值,如表2-4所示。
表2-4 某企业员工日产量资料

2.组距式分组
组距式分组就是将变量值依次划分为几个区间,每个区间作为一个组,再将总体各单位按变量值的大小分别归并于相应的某一个组的分组形式。组距式分组条件下形成的频数分布称为组距式频数分布,又称组距数列。对于变动范围较大的离散型变量,若一一列举所有的变量值,将导致分组太多,每组的单位数太少,难以反映总体的特征,从而失去分组的意义;对于连续型变量,不可能一一列举所有的变量值,所以不适合进行单项式分组。以上两种情况都必须进行组距式分组。比如,对被调查住户按月人均收入的多少可分为500元以下、500~800元、800~1500元、1500~3000元、3000元以上几个组。组距式分组适合于连续型变量或变动范围较大的离散型变量。
下面以一个具体的案例阐述组距式数列的编制方法。
【例2-1】40家企业2013年产品的销售收入资料如下表所示(单位:万元):

对该资料的整理过程并据此说明变量数列的编制步骤如下:
第一步,对调查数据进行从小到大排序,并计算全距。在排序的时候,可以借助本章第四节介绍的茎叶图,该图既可以对数据进行排序,也能在一定程度上显示数据的规律。根据排序后的数据,产品销售收入变异较大,但大体是均匀变动的,故可以进行等距分组。全距=最大值-最小值,以例2-1资料为例,则全距= 125-62= 63。
第二步,确定组数、组距和组限。其中,组距=全距/组数,或组数=全距/组距。在全距一定的情况下,组距的大小和组数的多少成反比。在实际工作中,组距和组数的确定要具体情况具体分析,不能做统一规定。在某些条件下可以借助美国统计学家埃·斯特奇斯提出的经验公式,即建议组数n= 1+ 3.322lg N(式中N代表数据的个数)。本例中N= 40,代入公式,可以得出建议组数为6.34,取整数6。而组距=全距/组数= 63/6.34= 9.93,组距一般取整数,故组距可定为10。
在组距式分组中,把每组变动范围的界限值,即每组两端的数值称作“组限”。其中,每组的最大值称作该组的上限值,简称“上限”;每组的最小值称作该组的下限值,简称“下限”。对于连续型变量,相邻组的组限必须重叠。本例中,由于组距为10,故可以把80、90、100、110、120这样的数据设为相应的组限,分组情况可确定为:80以下,80~90,90~100,100~110,110~120,120以上。
第三步,确定组中值。对于闭合组,组中值=(上限+下限)÷2;对于开口组,组中值的公式为
缺下限的组中值=该组上限-(相邻组组距÷2)
缺上限的组中值=该组下限+(相邻组组距÷2)
计算组中值的作用是组中值被当作每一组的平均值,在第三章中会用到这一概念。
第四步,确定各组的频数和频率,编制频数分布表。在确定频数时,应遵循“不重不漏”的原则。“不重”就是任何一个单位数值只能分在其中某一组内,不能同时分在两组中。为了保证“不重”,必须遵循“上组限不在内”的规定。也就是说,如果某一个变量值正好等于某一组上限,则该变量值被分到作为下限的那个组。“不漏”就是任一数值必须分在某一组内,不能遗漏。为了便于分析,还可以计算各组的累计频数和累计频率。根据本例资料编制的等距数列如表2-5所示。
表2-5 40家企业2013年产品销售收入表

在经济实践中,数值型数据分组是一个十分复杂的工作,有些分组要经过深入细致的调查研究工作后,才能合理地确定分组界限。例如,人口按年均收入的多少分为贫困人口和非贫困人口,这个数量界限就是在深入调查研究的基础上确定的,还有经济实践中大、中、小型企业的划分也是这样。我们经常听到的“老龄化社会”这一概念,其客观的数量界限就是60岁,如果一个国家总人口中60岁以上的人口占总人口的比重超过10%的话,就认为该国已进入老龄化社会,政府就会在养老、救济等方面出台相应的政策。公司的奖金分配办法也是这样。还有一些现象具有约定俗成或者说被大家常常采用的数量界限,那么我们在分组时,一般要按照这样一个数量界限进行分组。例如,在学生的学籍管理中,一般把平均成绩在90分以上的称为“优秀”,60分以下的称为“不及格”,等等。这里的60分、90分就是一个很好的数量界限。这就提示我们,在进行统计数据尤其是数量型数据分组时,首先要经过深入的调查研究,其次要考虑现象内部是否具有被广泛采用的数量界限,不能盲目套用上述经验公式。
五、次数分布的类型
次数分布亦称为频数分布,是在统计分组的基础上,将总体的所有单位按组进行归类整理,并按一定顺序排列,以反映总体各单位在各组中的分布情况。次数分布是统计分组的结果,不同统计总体有不同的次数分布,形成不同的频数分布类型,概括起来主要有以下3种类型:钟形分布、J形分布和U形分布,如图2-1所示。
1.钟形分布
钟形分布是指靠近两端的变量值分布次数较少,中间变量值分布次数较多的一种分布,其绘制成的曲线形状宛如一口倒挂的古钟。钟形分布是客观现象分布中最常见的分布,其突出特征是“中间大,两头小”。如果钟形分布的中间变量值次数最多,两侧变量值分布的次数随着其与中间变量值距离的增大而渐次减少,并围绕中心变量值两侧呈完全对称分布,则称为对称分布。对称分布中的正态分布是最重要的分布,许多客观现象总体都趋近于正态分布,如学生的身高、体重、智力水平、考试成绩等均服从正态分布。中心变量值两侧的变量值次数分布不对称的称为非对称分布或偏态分布,通常有左偏态和右偏态两种。

图2-1 常见的次数分布类型
2.J形分布
J形分布有正反两种情况:次数随变量值增大而增多时所绘制成的曲线图形如英文字母“J”,称为正J形分布;次数随变量值增大而减少时所绘制成的曲线图犹如反写的英文字母“J”,称为反J形分布。例如,商品供给量随着价格的提高而不断增加,使供给曲线呈正J分布,而需求曲线一般呈反J形分布。
3.U形分布
U形分布的特征与钟形分布的特征恰恰相反,靠近中间的变量值分布次数少,靠近两端的变量值分布次数多,分布特征是“两头大,中间小”,绘成的曲线图形如英文字母“U”。例如,人口在不同年龄上的死亡率一般近似地表现为U形分布。
第四节 统计资料的显示
在对统计数据进行加工整理之后,为使数据的规律性特征更加明显,可以通过绘制统计图的方法把这些数据显示出来。通过显示可以大大地简化数据,直观地表达数据所包含的信息,为统计分析提供思路和借鉴。
一、分类型数据的显示
分类型数据主要借助条形图和饼图来显示。
条形图包括横置或纵置、单式或复式等形式。条形图是用宽度相同的条形的高度或长短来表示数据的变动的,在表示数据的分布时,其高度或长度表示的就是各类别数据的频数或频率。
饼图主要用来反映总体的内部构成,经常用于研究结构性问题。饼图以整个圆形的面积代表一个统计总体,以圆内各扇形面积的大小反映总体的各个组成部分,形象地反映总体各部分所占的份额。
例如,可将表2-2数据绘制成条形图和饼图,如图2-2和图2-3所示。

图2-2 某班学生按性别分组的条形图

图2-3 某班学生按性别分组的饼图
二、顺序型数据的显示

图2-4 某系大学教师职称分布的折线图
对于顺序型数据,我们可以绘制基于累计频数(频率)的折线图。在折线图上,可以清楚地显示某一水平以上或以下的频数或频率。例如,可将表2-3的数据绘制成折线图,如图2-4所示。
三、数值型数据的显示
对于数值型数据,可以采用直方图和茎叶图。
1.直方图
直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中,横轴表示数据分组,纵轴表示频数或频率。由例2-1的数据绘制的直方图如图2-5所示。
条形图和直方图看起来相似,但有一些不同。首先,条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列的。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

图2-5 40家企业2013年产品的销售收入直方图
2.茎叶图(https://www.xing528.com)
茎叶图又称为枝叶图,是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。茎叶图显示数据有两个优点:一是原始数据没有信息损失,所有的数据信息可以从茎叶图中直接得到;二是茎叶图的数据可以随时添加修改,方便记录与表示。
【例2-2】某商场连续10天的商品销售额数据资料如下(单位:万元):
25,45,37,32,41,26,53,35,52,48
例2-2中的商品销售额数据,可将十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上而下列出,共茎的叶一般按从小到大的顺序同行列出。

图2-6 商品销售额数据的茎叶图
四、统计表的设计
在显示统计数据时,除了使用统计图外,还可以使用统计表。统计表是以表格的形式表达统计资料数量关系的方式或工具。统计表能将大量统计数字资料加以综合组织安排,使资料更加系统化、标准化,更加紧凑、简明、醒目和有条理,便于人们阅读、对照比较,说明问题清楚,从而更加容易发现现象之间的规律性。利用统计表还便于资料的汇总和审查,便于计算和分析。因此,统计表是统计分析的重要工具。
根据使用者的要求和统计数据本身的特点,可以绘制形式多样的统计表。但总的来说,统计表一般由4个主要部分组成,即表头、行标题、列标题和数字资料,必要时可以在统计表的下方加上表外附加。表头概括的是统计表的主要内容,应放在表的上方。行标题通常在统计表的第一列,表示各组的名称,它说明统计表要说明的对象。列标题在统计表的第一行,表示汇总项目即统计指标的名称。表的其余部分是具体的数字资料,列在各横行标题与各纵栏标题的交叉处,即统计表的右下方。表外附加通常放在统计表的下方,主要包括资料来源、指标的注释、填表单位、填表人员、填表日期和必要的文字说明等内容,如表2-6所示。

统计表在设计时应注意以下几个方面:
(1)统计表一般为横长方形,上下两端封闭且为粗线,左右两端开口。列标题之间一般用竖线分开,而行标题之间通常不必用横线隔开,表中尽量少用横线。
(2)统计表总标题、行标题和列标题应简明扼要,须准确表达出统计资料的内容。
(3)合理安排统计表的结构。针对强调的问题的差异,行标题和列标题可以互换,统计表的横竖比例应该适当,避免出现过高或过长的表格形式。
(4)填写数字资料不留空格,没有数字的表格单元应在空格处画上斜线。表中的数字一般是右对齐,有小数点应以小数点对齐,而且小数点的位数应该统一。
第五节 Excel在数据搜集与整理中的运用
在实际工作中统计数据可能非常庞杂,需要借助Excel来实现,下面以一些例子加以说明。
一、分类型数据的频数分布表和直方图的编制
下面结合一个具体的案例来说明分类型数据的频数分布表和直方图的编制步骤。
【例2-3】为进一步了解陕西农村居民的受教育情况,随机抽取了60户农户进行调查,备选答案有不识字或识字很少、小学、初中、高中(含中专)、大学及以上。回答结果如下表所示,要求根据以下资料编制频数分布表。

频数分布表和直方图的编制步骤如下:
第一步,数据输入。
(1)在A1中输入“文化程度”,在A2到A61中输入60户农户的受教育情况。
(2)对不同的文化程度按由低到高的顺序分别用代码表示,其中不识字或识字很少用1表示、小学用2表示、初中用3表示、高中用4表示、大学及以上用5表示。在B2到B61中输入相应的代码。
第二步,指定上限。
Excel把代码视为数值型数据,为建立频数分布表和直方图,必须对每一种受教育程度指定一个上限,只需将代码1,2,3,4,5依次输入到D2到D6中,Excel对数值小于或等于相应代码的项数进行计数。
第三步,生成频数分布表和直方图。
(1)选择“数据”下拉菜单中的“数据分析”选项。如果“数据分析”工具不在相应菜单中,可以选择“加载宏”,在“加载宏”对话框中,勾选“分析数据库”选项。
(2)在“数据分析”对话框中选择“直方图”。
(3)在“输入区域”方框中输入数据所在单元格区域B2:B61;在“接受区域”方框中输入分组数据上限所在单元格区域D2:D6;在“输出区域”方框中输入E2,表示输出区域的起点;在输出选项中,选择“累计百分比”和“图表输出”。输出结果如图2-7和2-8所示。
二、数值型数据的频数分布表和直方图的编制
以例2-4的资料为例,阐述数值型数据的频数分布表和直方图的编制过程。

图2-7 数据输入的形式

图2-8 60户农户受教育程度的分布图
【例2-4】某班50名学生的经济学成绩资料如下表所示。

第一步,输入数据并对数据进行从小到大排序。
(1)把50名学生的经济学成绩输入到A1到A50的单元格中。
(2)选中A1:A50单元格区域,复制数据并粘贴到B1:B50的单元格中。
(3)选中B1:B50,选中“数据”下拉菜单中的“排序”选项,按升序排列。
第二步,指定上限。
在单元格C2~C6中,分别输入分组数据的上限59,69,79,89,100。
第三步,生成频数分布表和直方图。
(1)选择“数据”下拉菜单中的“数据分析”选项。
(2)在“数据分析”对话框中选择“直方图”。
(3)在“输入区域”方框中输入数据所在单元格区域B1:B50;在“接受区域”方框中输入分组数据上限所在单元格区域C2:C6;在“输出区域”方框中输入D1,表示输出区域的起点;在输出选项中,选择“累计百分比”和“图表输出”。输出结果如图2-9所示。

图2-9 50名学生的经济学成绩分布直方图
三、应用Excel绘制统计图
Excel还设置了各种常用统计图表的绘制功能,操作方法十分简便,我们仅以折线图和饼图的绘制过程来加以说明,其他图形的绘制过程大致相同,只要按“图表指南”对话框提示操作,便可绘制出各种常用图形。下面以例2-3的数据为例。
第一步,打开Excel,把原始数据输入A列,按品质数据的编制方法做出频数分布表。
第二步,单击“插入”,出现“图表指南”对话框,选中数据区域,单击“饼图”,并可出现如图2-10所示的饼图。单击鼠标右键,可以“添加数据标签”以及“更改系列图表类型”,亦可把饼图更改为折线图,如图2-11所示。

图2-10 60户农户受教育程度分布的饼图

图2-11 60户农户受教育程度分布的折线图
【思考与练习】
一、判断题
1.对有限总体进行调查只能采用全面调查。( )
2.重点调查中的重点单位是根据当前工作的重点来确定的。( )
3.制定调查方案的首要问题是确定调查对象。( )
4.统计整理仅仅只能是对统计调查所得到的原始资料进行加工整理。( )
5.在单项式分组中,组数等于数量标志所包含的变量值的个数。( )
6.对一个既定的统计总体而言,合理的分组标志只有一个。( )
7.频数表示标志值对总体的绝对作用程度,而频率则说明标志值对总体的相对作用程度。( )
8.组中值是各组上限和下限的中点数值,故在任何情况下它都能代表各组的一般水平。( )
9.在单项数列中,组数=全距÷组距。( )
10.离散型变量可以作单项式分组或组距式分组,而连续型变量只能作组距式分组。( )
二、单项选择题
1.对一批商品进行质量检验,最适宜采用的调查方法是( )。
A.全面调查
B.抽样调查
C.典型调查
D.重点调查
2.抽样调查与重点调查的主要区别是( )。
A.作用不同
B.组织方式不同
C.灵活程度不同
D.选取调查单位的方法不同
3.先对总体中的个体按主要标志加以分类,再以随机原则从各类中抽取一定的单位进行调查,这种抽样调查形式属于( )。
A.简单随机抽样
B.等距抽样
C.整群抽样
D.类型抽样
4.对某省饮食业从业人员的健康状况进行调查,调查单位是该省饮食业的( )。
A.全部网点
B.每个网点
C.所有从业人员
D.每个从业人员
5.设对某地区的人口按年龄分组如下:不满周岁,1~3岁,4~6岁,7~12岁,……,60~64岁,65 ~79岁,80~99岁,100岁以上,最后一组的组中值为( )。
A.110岁
B.109岁
C.109.5岁
D.119岁
6.如果数据分布很不均匀,则应编制( )。
A.开口组
B.闭口组
C.等距数列
D.不等距数列
7.在组距列数中,( )。
A.组距与组限成正比
B.组距与组限成反比
C.组距与组数成正比
D.组距与组数成反比
8.某地区农民人均收入最高为426元/月,最低为270元/月。据此分为6个组,形成闭口式等距数列,则各组组距为( )。
A.71
B.26
C.156
D.348
9.用组中值代表各组内的一般水平有一个假定条件,即假定( )。
A.各组的次数均相等
B.各组的组距均相等
C.各组的变量值相等
D.各组次数分布各组内是均匀的
10.在各种调查方式中,能从调查结果推断总体数量特征的调查方式是( )。
A.重点调查
B.典型调查
C.抽样调查
D.普查
11.某学校对学习成绩好的几个班级进行了调查,这种调查属于( )。
A.普查
B.重点调查
C.典型调查
D.抽样调查
12.统计报表一般属于( )。
A.经常性的全面调查
B.一次性的全面调查
C.经常性的非全面调查
D.一次性的非全面调查
13.通过调查我国几个主要油田来了解石油生产的基本情况,这种调查方式属于( )。
A.普查
B.典型调查
C.重点调查
D.抽样调查
14.调查人员去现场观察、计数以了解企业的期末在产品数量,这种搜集资料的方法是( )。
A.采访法
B.观察法
C.实验法
D.报告法
三、多项选择题
1.制定一个周密的统计调查方案,应确定( )。
A.调查目的和调查对象
B.调查单位和填报单位
C.调查项目和调查表
D.调查资料的使用范围
E.调查的时间和时限
2.通过对开滦、大同、抚顺等几个大型矿务局的调查,了解我国煤炭生产的基本情况,这种调查属于( )。
A.典型调查
B.重点调查
C.抽样调查
D.全面调查
E.非全面调查
3.抽样调查的优越性表现在( )。
A.经济性
B.时效性
C.准确性
D.全面性
E.灵活性
4.指出下列分组哪些是按数量标志分组( )。
A.企业按所有制分组
B.家庭按人口多少分组
C.家庭按收入水平分组
D.产品按合格与不合格分组
E.职工按工资水平分组
5.指出下列分组哪些是按品质标志分组( )。
A.人口按性别分组
B.企业按资产多少分组
C.固定资产按用途分组
D.人口按居住地区分组
E.成年人口按受教育年限分组
6.编制次数分布数列的基本步骤包括( )。
A.通过调查取得原始资料
B.确定组数和组距
C.确定组中值
D.确定组限
E.将调查得到的原始资料按数值大小依次排列
7.组距数列中,组距的大小与( )。
A.组数的多少成正比
B.组数的多少成反比
C.总体单位数的多少成反比
D.全距的大小成反比
E.全距的大小成正比
8.在等组距式数列中,组数等于( )。
A.最大标志值与最小标志值之差
B.(最大标志值-最小标志值)÷(各组上限-各组下限)
C.最大标志值÷最小标志值
D.全距÷组距
E.组距÷全距
9.对统计总体进行分组时,采用等距分组还是异距分组,决定于( )。
A.现象的特点
B.变量值的多少
C.次数的大小
D.数据分布是否均匀
E.组数的多少
10.分配数列中,各组标志值与频数的关系是( )。
A.各组标志值作用大小从频数大小中反映出来
B.频数愈大的组,标志值对于总体标志水平所起的影响也愈大
C.频数愈大,则组标志值也愈大
D.标志值很小的组,相应的频数也就小
E.组标志值相应的频数很小,对于总体标志水平所起的作用就小
四、简答题
1.统计数据的来源有哪些?
2.一个完整的统计调查方案应该包括哪些主要内容?
3.什么是普查?具有哪些特点?
4.什么是抽样调查?具有什么特点?
5.简述编制变量数列的一般步骤。
五、计算题
1.某公司2012年和2013年的劳动力数据资料如下表所示。

根据以上数据绘制饼图和条形图。
2.某超市为了了解顾客对其服务质量的满意程度,随机抽取了前来购物的80名顾客进行调查,其中的一个问题是:“您认为本超市的服务质量如何?请在下面的备选答案中选择一个:A.好;B.较好; C.一般;D.差;E.较差”,根据顾客的回答得到的资料如下表所示。

要求:
(1)根据以上资料,编制频数分布表。
(2)计算频率和累计频率。根据累计频率,说明对服务质量评价在“一般”以上水平的顾客比率是多少。
3.有27个工人看管机器台数如下:

试编制分配数列。
4.某班40名学生统计学考试成绩如下:

根据该班学生的成绩编制一张频数分布表并绘制合适的统计图。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
