首页 理论教育 主流抽样方法趋于不准确,需要寻找合适的样本来提问

主流抽样方法趋于不准确,需要寻找合适的样本来提问

时间:2023-07-21 理论教育 版权反馈
【摘要】:目前,社会研究中最主要的抽样方法是概率抽样。图3.5无回答率一直在稳步上升,即使在高质量、高成本的调查中也是如此。图3.6总统杜鲁门手举报纸,其标题错误宣告杜鲁门落选。我认为可以把它们看作“非概率抽样2.0”,因为这些新的方法与过去容易引发问题的方法有着很大的区别。鉴于上述现象,原始Xbox数据很难准确反映选民意愿。该事例又一次说明了未经调整的原始非

主流抽样方法趋于不准确,需要寻找合适的样本来提问

数字时代正在使概率抽样实践起来更加困难,同时为非概率抽样创造着新的机会。

在抽样的发展进程中,有两种相互对立的方法:概率抽样和非概率抽样。尽管在抽样的早期,这两种方法都在被使用,但如今概率抽样处于主导地位,而且许多社会研究人员被教导要对非概率抽样持极其怀疑的态度。然而,正如我在下文将描述的一样,数字时代带来的变化意味着研究人员需要重新考虑非概率抽样了。尤其是,概率抽样实践起来越来越难,而非概率抽样越来越快、越来越便宜,效果也越来越好。更快、更便宜的调查不仅有速度和成本上的优势,还使诸如更频繁的调查、更大的样本量等新机会成为可能。例如,通过使用非概率方法,合作国会选举研究(Cooperative Congressional Election Study)拥有的参与者人数是早期使用概率抽样时的10倍。这一更大容量的样本使政治研究人员能够研究不同社会背景下相关党派在态度和行为上的变化。此外,样本容量的增加也没有降低研究的质量(Ansolabehere and Rivers 2013)。

目前,社会研究中最主要的抽样方法是概率抽样。在概率抽样中,目标总体中的每个人都有一个已知的、非零的被抽中的概率,而且所有被抽中的人都会参与调查。满足这些条件后,巧妙的数学计算结果就能提高研究人员利用该样本推断目标总体的能力。

然而,在现实世界中,这些数学计算结果得以成立的前提条件很少能得到满足。例如,覆盖面误差和无回答现象是经常出现的。因为这些问题,研究人员经常需要使用各种统计调整来实现从样本到目标总体的推断。理论上的概率抽样具有较强的理论保证,实践中的概率抽样却没有这些保证,并且依赖于各种统计调整,因此,区分理论上的概率抽样和实践中的概率抽样是很重要的。

随着时间的推移,理论上的概率抽样和实践中的概率抽样之间的差异一直在增加。例如,无回答率一直在平稳地上升,即使是高质量的、昂贵的调查也存在这一问题(图3.5)(National Research Council 2013;Meyer,Mok,and Sullivan 2015)。在商业电话调查中,无回答率更要高得多,有时甚至高达90%(Kohut et al.2012)。无回答率的增加威胁着研究的质量,因为研究越来越依赖于研究人员用来修正无回答率的统计模型。此外,尽管调查研究人员为维持高回答率付出了越来越高昂的代价,但质量下降还是发生了。一些人担忧,质量下降和成本增加这两个密切相关的趋势会威胁到调查研究的基础(National Research Council 2013)。

图3.5 无回答率一直在稳步上升,即使在高质量、高成本的调查中也是如此。无回答现象的这些长期趋势意味着数据采集变得更加昂贵了,研究也不那么可靠了。改编自Meyer,Mok,and Sullivan(2015),图1。

概率抽样方法的难度越来越大了,与此同时,非概率抽样方法一直有着令人兴奋的进展。非概率抽样方法有多种类型,但它们有一个共同点,那就是难以融入概率抽样的数学框架(Baker et al.2013)。换句话说,在非概率抽样方法中,不是每个人都有已知的、非零的被抽中的概率。非概率抽样方法并不被社会研究人员所看好,而且被认为与一些相当失败的社会研究(例如《文学文摘》的惨败;对1948年美国总统大选进行了错误预测的“杜威击败杜鲁门”事件,如图3.6所示)存在着关联。

图3.6 总统杜鲁门手举报纸,其标题错误宣告杜鲁门落选。该错误之所以产生,部分是因为调查使用了非概率样本(Mosteller 1949;Bean 1950;Freedman,Pisani,and Purves 2007)。尽管“杜威击败杜鲁门”事件发生在1948年,但它仍然是许多研究人员对非概率样本持怀疑态度的原因之一。图片来源:杜鲁门总统图书馆博物馆。

使用在线样本是特别适合数字时代的一种非概率抽样方法。使用在线样本的研究人员依赖于一些样本提供者,通常是一个公司、政府或大学去召集愿意回答调查问题的人,创建一个庞大的、多样化的样本群。召集的方法通常是在线横幅广告等依实际需要而定的方法。然后,研究人员可以付费给样本提供者,以获取那些具备特定特征(例如可以代表整个国家的成年人)的受访者样本。这些在线样本属于非概率样本,因为不是每个人都有一个已知的、非零的被抽中的概率。虽然社会研究人员已经开始使用非概率在线样本了(例如合作国会选举研究),但对利用这些样本得出评估结论的质量,还是存在一些争议(Callegaro et al.2014)。

尽管存在这些争议,但我认为社会研究人员是时候该重新考虑非概率抽样了,原因有以下两点。首先,在数字时代,非概率样本的搜集和分析方法都发展了许多。我认为可以把它们看作“非概率抽样2.0”,因为这些新的方法与过去容易引发问题的方法有着很大的区别。其次,概率抽样实践起来越来越难。在实际调查中,无回答率往往较高,而当无回答率较高时,受访者被抽中的实际概率就是未知的,因此,概率抽样和非概率抽样也就不像许多研究人员所认为的那样不同了。

正如我之前所说的,许多社会研究人员都对非概率样本持怀疑态度,部分原因是在调查研究早期,一些最令人感到尴尬的失败案例就采用了这类样本。而通过王伟(Wei Wang)、戴维·罗思柴尔德(David Rothschild)、沙拉德·戈埃尔(Sharad Goel)以及安德鲁·格尔曼(Andrew Gelman)的研究,我们可以清楚地了解非概率样本目前的状况。该研究通过一个明显非随机的样本——由Xbox(一款微软游戏机)的美国用户组成的非概率样本,正确预测了2012年美国大选的结果。研究人员招募的受访者来自Xbox游戏系统,而且如你可能预料的一样,该样本偏男性化、年轻化。18~29岁的人在选民中占19%,但在该样本中占65%;男性在选民中占47%,但在该样本中占93%(图3.7)。鉴于上述现象,原始Xbox数据很难准确反映选民意愿。Xbox样本中的回答者预测,米特·罗姆尼将大败巴拉克·奥巴马。该事例又一次说明了未经调整的原始非概率样本的危险性,也让我们再次想起了《文学文摘》的惨败。

图3.7 王伟等人的研究中受访者的人口统计。因为受访者是从Xbox招募而来的,因此与2012年大选的选民相比,这些受访者中年轻人和男性的比例要更高。改编自Wang et al.(2015),图1。(www.xing528.com)

但王伟和同事意识到了这些问题,并在评估过程中试图对他们的非随机抽样过程进行调整修正,尤其是利用了事后分层技术,这一技术也被广泛用于调整有覆盖面误差和无回答现象的概率样本。

事后分层的主要思想是利用关于目标总体的辅助信息,帮助改善源于样本的评估结论。在利用事后分层从他们的非概率样本中得出评估结论的过程中,王伟和同事将抽样总体分为不同的小组并评估每组对奥巴马的支持情况,然后利用各组的评估结果计算出加权平均数,进而得出最终的评估结论。例如,他们可以把抽样总体分为两组(男性和女性),分别评估男性和女性对奥巴马的支持情况,然后在考虑选民中女性比例为53%、男性比例为47%这一事实的基础上,计算出加权平均数,进而得出有关奥巴马支持情况的最后评估。粗略地说,通过引入关于小组规模的辅助信息,事后分层有助于修正不平衡样本。

事后分层的关键是正确分组。如果你能把抽样总体分成组内每个人的回答倾向都相同的同类组,那么利用事后分层就能得出无偏差的评估结论。换句话说,如果所有男性具有相同的回答倾向,所有女性具有相同的回答倾向,那么根据性别的事后分层就能产生无偏差的评估结论。该假设被称为“组内相同回答倾向”假设。

当然,所有男性具有相同的回答倾向以及所有女性具有相同的回答倾向似乎是不太可能的。但是分的组越多,“组内相同回答倾向”的假设就越合理。粗略地说,分的组越多,就越容易将抽样总体细分为同类组。例如,假设所有女性具有相同的回答倾向似乎不太合理,但如果假设所有年龄为18~29岁、大学毕业且居住在加利福尼亚州的女性具有相同的回答倾向,可能就合理多了。因此,在采用事后分层时,随着分组数量的增加,用来支持该方法的假设也会越来越合理。鉴于这一事实,采用事后分层的研究人员经常想要创建大量的组。但随着分组数量的增加,研究人员又会遇到新的问题:数据稀疏。如果每组只有少量的受访者,那么得出的评估结论就会更加不可靠,并且在极端情况下,如果有一组是没有受访者的,那么事后分层就彻底失败了。

“组内相同回答倾向”这一假设的合理性与每组需要有合理数量的样本之间的固有冲突,可通过以下两种方法解决。首先,研究人员可以搜集更大、更多样化的样本,这有助于确保每组都有合理数量的受访者。其次,在进行组内评估时可以采取更复杂的统计模型。事实上,有时候研究人员可以同时采用这两种方法,就像王伟和同事通过Xbox用户研究美国大选时的做法一样。

因为他们的调查是通过计算机管理的(我将在3.5节中进一步介绍通过计算机管理的调查),采用的是非概率方法,所以王伟和同事在数据采集方面的成本很低,这使得他们从345858名独一无二的受访者那里搜集了信息,按照大选民调的相关标准,这可以说是一个很庞大的数字了。如此庞大的样本量使他们能够利用事后分层划分出大量小组。事后分层通常是将抽样总体划分为几百个小组,而王伟和同事则按照性别(2类)、种族(4类)、年龄(4类)、教育(4类)、州(51类)、认同党派(3类)、意识形态(3类)以及2008年投票支持谁(3类)将抽样总体分为176256个小组。换句话说,低成本的数据采集让他们拥有了庞大的样本数据量,而庞大的数据量使他们在评估过程中能够做出更合理的假设。

然而,虽然他们拥有345858名独一无二的受访者,但还是有许多组几乎没有受访者。于是,他们采用了一种被称为分层回归的方法来评估每组的支持情况。从本质上解释该方法就是,为了评估某一特定小组对奥巴马的支持情况,采用分层回归的王伟和同事就需要汇总与该组紧密相关的许多小组的支持情况。例如,假设要评估由18~29岁、西班牙裔、大学毕业、支持民主党、自认为是温和派且2008年投票支持奥巴马的女性组成的小组对奥巴马的支持情况,而这些限定条件是非常明确具体的,因此可能样本中并没有人能同时满足所有这些条件。所以,为了对该小组进行评估,王伟和同事就采用了分层回归,即通过一个统计模型汇总与该组非常相似的小组的评估情况。

也就是说,王伟和同事结合了事后分层和分层回归两种方法,因此他们将该策略称为事后分层及分层回归,或更亲切地称之为“P先生”。在采用“P先生”对Xbox非概率样本进行评估后,王伟和同事得出了与奥巴马在2012年大选中实际获得的总支持率非常接近的评估结论(图3.8)。事实上,他们的评估结论要比传统民调汇总后的结果更加准确。因此,在该研究中,统计调整,特别是“P先生”,在修正非概率数据的偏差方面起到了很大的作用。如果直接查看从未经调整的Xbox数据得出的评估结论,那么偏差将是显而易见的。

图3.8 王伟等人的评估。未经调整的Xbox样本得出的评估结论是不准确的。但加权后的Xbox样本得出的评估结论比Pollster网站基于概率的电话调查得出的结论的平均值还要准确。改编自Wang et a1.(2015),图2和图3。

从王伟和同事的研究中,我们主要能学到两条经验:首先,未经调整的非概率样本可能会导致糟糕的评估结论,这是许多研究人员以前就听过的一条经验;其次,如果分析得当,根据非概率样本实际上也能得出好的评估结论,使用非概率样本不一定会导致像《文学文摘》惨败那样的结果。

如果以后你需要在概率抽样法和非概率抽样法之间做出选择,那将是一个困难的选择。有时候,研究人员会想要一个快速且一成不变的规则(例如总是选择概率抽样法),但提供这样一个规则变得越来越难了。概率抽样法实践起来成本越来越高,而且其结果远远偏离了证明其有效的理论结果;非概率抽样法成本更低且更快,但研究人员对其不太熟悉,而且它又种类繁多。研究人员很难在两者之间做出选择。但有一件事是可以肯定的,那就是如果你不得不使用非概率样本或不具代表性的大数据资源(回想一下第2章),那你有充分的理由相信,相比于利用未经调整的原始数据得出评估结论,通过事后分层和相关技术得出的评估结论会更好。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈