首页 理论教育 数据处理方法及其在消费调查中的应用

数据处理方法及其在消费调查中的应用

时间:2023-05-29 理论教育 版权反馈
【摘要】:在此,我们主要就2011年全国基线调查的数据清理方法与标准进行详细说明,2008年和2012年甘肃和浙江两省调查的数据清理方法与标准与2011年全国基线调查是相同的,故不再详细介绍。消费所包含的类目较多,如果某一样本中仅仅因为一个类目的数据缺失或有误而放弃整个样本,那么势必会减少有效样本量。最终每个家庭户的总消费等于周、月、年所有答案的总和。

数据处理方法及其在消费调查中的应用

在本章中,我们对2011年全国基线调查和2008年与2012年甘肃和浙江调查的数据分别进行了数据清理工作。在此,我们主要就2011年全国基线调查的数据清理方法与标准进行详细说明,2008年和2012年甘肃和浙江两省调查的数据清理方法与标准与2011年全国基线调查是相同的,故不再详细介绍。

1.消费

《中国健康养老追踪调查》(CHARLS)2011年全国基线调查,对受访者的收入与消费情况分别进行了采集。消费模块所针对的是以家庭户为单位的家庭消费情况。并且,消费中食物开支包括现金性食物开支和自产自销食物在市场上贩售的价值,而其他各类消费均指的是现金性消费。

由于家庭户人数不同,人均消费量需要按家庭人数类别分别计算。依据样本中的家庭编号和对应的个人编号,我们发现这项调查中涉及两类家庭,单人户和双人户。在每个抽中的家庭户中,会有一个短的过滤问卷来确认家庭户中是否有适龄要求的受访者。如果一个家庭户中有多个超过40岁以上的人,我们随机选择一个。如果抽中的人年龄在45岁以上,他作为主要受访者,并同时访谈他的配偶。如果抽中的人年龄在40~44岁,他作为预留样本以后进行调查。如果适龄成员无法回答问题,我们指定一个代理受访者帮助他回答问题,如果受访者有配偶或知情的成年子女,通常作为代理受访者。无45岁及以上成员的家庭,没有对其进行访问。

对单人户和双人户的划分依据是抽中家户中60岁及以上老年人口的数量,只有一位的称为单人户,有两位的称为双人户。这一划分只能在一定程度上代表独居与非独居老年人口,其中双人户可以代表老年人口的非独居状况,但单人户老年人口只能代表其同辈分的(配偶关系状况中)处于独立状况,但因抽样中并没有区分是否与子女(或父母)同住,因而本研究中所能区分出的单人户老年人口中包含一部分与子女同住或与父母同住的老年人口。

我们将单人户和双人户的样本分别挑选出来,并分别将单人户和双人户的消费样本与对应的人口信息样本一一匹配。

针对消费的问卷内容分为3个层面,最近一周,最近一个月,以及最近一年。周、月、年3个层面的问题设计,科学考虑了是否适宜受访者回忆以及是否方便统计。其中,按周访问的消费包括:食物支出、在外就餐支出、烟酒支出;按月访问的消费包括:邮电通信支出、水电费、燃料费、保姆小时工佣人等支出、当地交通费、日用品包括美容化妆品支出、文化娱乐支出;按年访问的消费包括:衣着消费、家庭旅游支出、家庭取暖费支出、家具耐用消费品支出、教育和培训、医疗支出、保健支出、美容支出、各种交通工具的购买维修及配件费用(除汽车)、购买汽车、电器、物业费、社会捐助支出。消费所包含的类目较多,如果某一样本中仅仅因为一个类目的数据缺失或有误而放弃整个样本,那么势必会减少有效样本量。对于样本量较多的年龄组而言影响并不大,然而针对原始样本量相对稀少的年龄组(比如高龄组90岁及以上)而言,每失去一个样本对年龄组的平均值影响巨大。在这样的考虑之下,我们采取分周、月、年3个梯度的筛选方法,尽可能多地保留有效数据。这种方法是指,按周访问的3个答案中,只要有1个失效答案,那么这一样本就被剔除,类似的,月和年的答案也如此。最终每个家庭户的总消费等于周、月、年所有答案的总和(其中周的数据乘以52,月的数据乘以12,年的数据保持不变)。单人户中的人均消费量即等于单人户家庭消费量,而双人户中的人均消费量等于双人户家庭消费量的一半。这里我们简单地认为双人户中每个人均等地享用家庭总消费。(www.xing528.com)

2.收入

我们对2011年基线调查中收入的原始数据也进行了极为细致的清理。首先,收入部分既包括按照个人统计的个人工资性收入(工资性收入是简称,包括工资、养老金、退休金和各种补贴收入)[3],也包括以家庭户为单位进行统计的家庭收入。家庭收入包括农林生产收入、牲畜和水产品收入、个体经营或私营企业收入等。其次,个人工资性收入的答案既可以按年回答,也可以按月回答,如果按月来回答的,我们统一将以月为单位的收入折算成以年为单位,并最终纳入总收入。由于考虑到以月为单位回答收入较为准确,因此,如果遇到某个受访者既回答了年收入又回答了月收入,则以月收入乘以12后所得到的年收入为准。再次,以家庭为单位进行统计的农林生产、牲畜和水产品、个体经营或私营企业收入等,我们按照家庭户类型(单人户和双人户)区分开来,如果是单人户的则家庭收入即等于个人收入,而如果是双人户的,我们将家庭收入除以2,以此作为个人收入。在对家庭个体经营或私营企业收入进行访问时,我们注意到问卷中特别提醒受访者该项经营活动收入只统计家庭成员作为参与者所获得的收入。如果有其他非家庭成员参与到该经营活动中,非家庭成员的收入须剔除。最后很重要的一点在于,由于收入数据只有对应的受访者编号信息,并没有受访者其他人口背景信息(比如年龄、性别、户籍、婚姻状况、受教育程度等),因此,接下来一步繁冗的工作是将收入数据与人口信息数据进行逐个逐户的匹配。在匹配的过程中,将缺失信息与信息有误的受访者去除,并尽可能多地保留有效样本。

3.消费与收入的匹配

经过以上消费与收入样本数据的分别清理与初步计算,我们得到了非常有利并且可观的消费数据和收入数据。消费与收入相互匹配的方法有两种:(1)逐个逐户的匹配;(2)年龄组别层面的匹配。考虑到有些样本的收入模块回答得很完整,却在消费模块失效答案较多,为了尽量保有更多的有效样本,我们选取第二种方法进行年龄组别的消费与收入匹配。

4.关于样本剔除

CHARLS数据所调查的对象是45岁及以上的人口,但是由于老年人口的人口学定义一般为60岁及以上的人口,因此,我们在本研究中只针对样本中60岁及以上年龄的样本进行讨论。45~59岁的样本虽然在CHARLS调查中作为老年人口的家庭成员被一同统计在数据中,但是按照这样的调查目的所抽取的45~59岁样本与全国实际的45~59岁年龄段人口占比相差很大,因此样本中的45~59岁年龄段的样本并不具备全国代表性,为此我们也将其剔除。这里需要特别指出,本研究中所计算的老年人口的平均消费、平均收入、平均收支赤字等一系列数据都是60岁及以上老年人口的平均值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈