首页 理论教育 丰富型提问:如何提出更具深度的问题?

丰富型提问:如何提出更具深度的问题?

时间:2023-07-21 理论教育 版权反馈
【摘要】:将调查数据和大数据资源结合起来的一种方法,我称之为丰富型提问。丰富型提问的一个事例是我在3.2节中提到的伯克和克劳特针对脸谱网上的互动是否会增进友谊所开展的研究。然而,伯克和克劳特当时的工作环境意味着他们无须面对那些进行丰富型提问的研究人员通常会面临的两大难题。换句话说,丰富型提问经常需要将调查与质量未知的黑匣子似的数据资源链接起来,而这一过程很容易出错。图3.13安索拉比赫和赫什的研究示意图。

丰富型提问:如何提出更具深度的问题?

在丰富型提问中,大数据资源含有一些重要的测量数据,但缺失其他一些测量数据,而调查数据围绕该大数据资源构建起了必要的背景。

将调查数据和大数据资源结合起来的一种方法,我称之为丰富型提问。在丰富型提问中,大数据资源中含有一些重要的测量数据,但缺失其他一些测量数据,因此研究人员需要通过一项调查来搜集这些缺失的数据,然后将两部分数据资源结合起来。丰富型提问的一个事例是我在3.2节中提到的伯克和克劳特针对脸谱网上的互动是否会增进友谊所开展的研究。在该研究中,伯克和克劳特把调查数据与脸谱网的日志数据进行了结合。

然而,伯克和克劳特当时的工作环境意味着他们无须面对那些进行丰富型提问的研究人员通常会面临的两大难题。其中一个是,如果两个数据资源中都没有可用来确保一个数据集中的正确记录与另一个数据集中的正确记录相匹配的唯一标识符,那么就很难将个体层面的数据集链接起来(这是一个被称为记录链接的过程)。第二个难题是,大数据资源的质量通常很难评估,因为数据创建的过程可能是不对外公开的,并且大数据资源容易受到第2章所描述的问题的影响。换句话说,丰富型提问经常需要将调查与质量未知的黑匣子似的数据资源链接起来,而这一过程很容易出错。尽管存在这些问题,但我们还是可以利用丰富型提问开展重要的研究,正如斯蒂芬·安索拉比赫(Stephen Ansolabehere)和埃坦·赫什(Eitan Hersh)针对美国的投票模式所进行的研究那样。

投票率一直是大量政治科学研究的主题,而且在过去,研究人员对于谁投票以及为什么投票的理解基本上都基于对调查数据的分析。但在美国,投票是一种非比寻常的行为,因为政府会记录每个公民是否投票。(当然,政府没有记录每个公民把票投给了谁。)多年来,政府的这些投票记录都是纸质版的,分散在全国各地的地方政府办公室中。这使政治科学家很难(但也不是不可能)获得全体选民的投票记录,并将他们在调查中关于投票所说的内容和实际的投票行为进行比较(Ansolabehere and Hersh 2012)。

但这些投票记录现在已经被数字化了。通过系统地搜集和汇总这些记录,一些私人公司已经创建了包含所有美国人投票行为的全面主投票文件。安索拉比赫和赫什就选择了与其中一家公司Catalist(凯利板)合作,以利用其主投票文件帮助他们更好地了解全体选民。此外,因为他们的研究依赖于上述这家公司(该公司在数据采集和汇总方面投入了大量的资源)所搜集和管理的数字记录,所以他们现在要比之前没有公司帮助且使用模拟记录开展研究时多了许多优势。

像第2章的许多大数据资源一样,安索拉比赫和赫什获得的主投票文件中也没有太多他们所需要的人口统计、态度以及行为方面的信息。事实上,他们特别感兴趣的是比较调查中报告的投票行为和经过验证的投票行为(即Catalist数据库中的信息)。因此,安索拉比赫和赫什借助本章前面提到的大型社会调查——合作国会选举研究,搜集了他们想要的数据。然后,他们把搜集来的数据交给了Catalist,Catalist汇总后又将包括经验证的投票行为(源于Catalist)、自我报告的投票行为(源于合作国会选举研究)以及受访者的人口统计资料和态度在内的数据文件返回给了他们(图3.13)。换句话说,安索拉比赫和赫什的研究只有将投票记录与调查数据结合起来才能开展,如果只有投票记录或只有调查数据,研究是不可能开展的。(www.xing528.com)

利用结合后的数据文件,安索拉比赫和赫什得出了三个重要结论。首先,过度报告投票行为的现象很是普遍:未投票者中几乎有一半的人报告称自己投过票,并且如果有人报告称自己投过票,实际上他真正投过票的概率只有80%。其次,过度报告并不是随机的:过度报告在高收入、受过良好教育、参与公共事务的党派人士中更为常见。换句话说,最有可能投票的人也最有可能谎报自己投过票。最后,也是最重要的一个结论是,由于过度报告的系统性,投票者和未投票者之间的实际差异比调查所显示的要小。例如,拥有学士学位的人报告称自己投过票的可能性要比没有的人高约22%,而其实际投票的可能性只高出了10%。事实证明,相比于预测谁会真正投票,现有的以数据源为基础的理论在预测谁会报告称自己投过票(这也是研究人员过去所使用的数据)方面,准确度会更高。因此,安索拉比赫和赫什的实证发现表明,我们需要新的理论来理解和预测投票。

图3.13 安索拉比赫和赫什的研究示意图。为了创建主数据文件,Catalist需将多个不同来源的信息进行汇总和统一。这一过程,无论多么小心,都会使原始数据资源中的错误得以传播,同时还会引发新的错误。第二个错误的来源是调查数据和主数据文件之间的记录链接。如果每个人在上述两个数据资源中都有一个稳定的、唯一的标识符,那么链接就会很简单。但Catalist只能通过不完美的标识符(在该事例中是指姓名、性别、出生年份以及家庭住址)进行链接。不幸的是,在许多情况下会出现不完整或不精确的信息,例如一位名叫荷马·辛普森(Homer Simpson)的投票者可能会被登记为荷马·杰·辛普森、荷马·J.辛普森,甚至是拼错单词。尽管主数据文件中和记录链接过程中都有可能出现错误,但通过几种不同类型的检查,安索拉比赫和赫什对他们的评估结论还是有信心的。

但对于这些结果我们又能信任多少呢?不要忘了这些结果依赖于一个易于出错的链接过程,而且这一过程需要链接至拥有未知数量错误的黑匣子似的数据中。更具体地说,这些结果取决于两个关键步骤:(1)Catalist将许多完全不同的数据资源汇总后,形成一个精确的主数据文件;(2)将调查数据链接至上述主数据文件。其中每个步骤都很困难,而且任何一个步骤中的错误都会导致研究人员得出错误的结论。

然而,作为一个公司,数据处理和链接对其继续生存来说至关重要,所以Catalist能以学术研究人员无法企及的规模投入资源,解决这些问题。在他们的论文中,安索拉比赫和赫什通过一系列步骤检查了上述两个步骤的结果(尽管有些是不对外开放的),这些检查对其他想要将调查数据和黑匣子似的大数据资源结合起来的研究人员可能会有所帮助。

一般来说,研究人员通过该研究能学到什么经验呢?首先,无论是利用调查数据丰富大数据资源还是利用大数据资源丰富调查数据(我们可以用任何一种方式看待该研究),都有巨大的价值。通过将两个数据资源相结合,研究人员就能做那些如果只有调查数据或只有大数据资源就不可能做的事情。其次,尽管汇总后的商业数据,例如Catalist的数据,不应被看作绝对真实,但在有些情况下,这些数据也是有用的。怀疑论者有时会将这些汇总后的商业数据与绝对真实进行比较,并指出这些数据资源存在着不足。但就这一情况而言,怀疑论者其实正在做错误的比较,因为研究人员使用的所有数据都达不到绝对真实。因此,比较好的做法是,将汇总后的商业数据资源与其他同样会有错误的可用数据资源(例如,受访者自我报告的投票行为)进行比较。最后,在某些情况下,研究人员可能会从许多私人公司在搜集和统一复杂的社会数据集方面的巨大投资中获益。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈