首页 理论教育 近似实验的益处:自然实验和匹配方法的应用

近似实验的益处:自然实验和匹配方法的应用

时间:2023-07-21 理论教育 版权反馈
【摘要】:我们可以用近似实验替代无法开展的实验,数字时代为自然实验和匹配这两个方法带来了颇多益处。我将用整个第4章来介绍实验,所以在这里我集中介绍两个可用于非实验数据的策略。根据抽签结果,9月14日出生的男性为第一批被征召参战的,4月24日出生的则为第二批,以此类推。但研究人员并不能控制任何一个商业机构员工的工作时间安排,因此马斯和莫雷蒂只能依赖于自然实验,将一家超市的收银员作为研究对象。

近似实验的益处:自然实验和匹配方法的应用

我们可以用近似实验替代无法开展的实验,数字时代为自然实验和匹配这两个方法带来了颇多益处。

一些重要的科学和政策问题是有其前因后果的。例如,职业培训项目对工资的影响是什么呢?一个试图回答这个问题的研究人员,可能会比较那些报名参加培训的人和那些没参加培训的人的收入。但是,他们之间工资的差异有多大比例是培训所致,又有多大比例是其他先前就有的差别所致呢?这是一个难题,而且它不会因为有更多的数据就自动得到解决。换句话说,无论你的数据统计了多少个员工,你都需要考虑可能先前就存在的差别因素。

在许多情况下,对职业培训等进行因果推断的最有力的方法是进行随机对照实验。在该类实验中,研究人员随机研究某些人,而不研究其他人。我将用整个第4章来介绍实验,所以在这里我集中介绍两个可用于非实验数据的策略。第一个策略是从现实世界中寻找刚好能随机(或几乎随机)研究某些人而不研究另一些人的事情。第二个策略是对非实验数据进行统计调整,使其不受两类人在研究开展前就存在的差异的影响。

怀疑论者可能会说,这两种策略都应被避免,因为它们需要进行强假定,而这些假定是难以评估的,且在实践中经常不成立。虽然我赞同这一说法,但我认为因此就规避这两种策略有点太过严重了。的确,利用非实验数据进行可靠的因果推断很困难,但我认为这并不意味着我们就应该放弃尝试。具体而言,当你因为组织实施上的限制因素而无法进行一项实验或因为道德伦理因素而不想进行一项实验时,非实验性的方法可能会有帮助。此外,如果你想利用已经存在的数据设计一个随机对照实验,那么非实验性的方法也可能有帮助。

继续叙述之前,有一个值得大家注意的问题就是,进行因果推断是社会研究中最复杂的话题之一,它可能会引发激烈的、情绪化的争论。接下来,我会以乐观的视角对每种方法进行描述,让你形成对每种方法的直觉感知,然后我会描述在使用每种方法时可能遇到的一些挑战。有关每种方法的进一步详细信息,你可以参阅与本章对应的参考文献。如果你打算在自己的研究中使用这两种方法,我强烈推荐你从许多优秀的因果推断著作(Imbens and Rubin 2015;Pearl 2009;Morgan and Winship 2014)中挑选一本进行研读。

根据非实验数据进行因果推断的方法之一是寻找现有事件,而该事件刚好能随机研究一些人而不研究另一些人。这样的情况被称作自然实验。最能说明自然实验的例子是1990年乔舒亚·安格里斯特(Joshua Angrist)针对服兵役影响收入的研究。在越南战争期间,美国政府通过征兵扩大军队的规模,而征兵的方式就是抽签,即将每个适龄男性的出生日期写在一张纸条上,然后每次抽一张来决定征召这些适龄男性的顺序(适龄女性不在征兵范围内)。根据抽签结果,9月14日出生的男性为第一批被征召参战的,4月24日出生的则为第二批,以此类推。最终,在这次抽签征兵中,有195个不同的日期被选中了,而其余171个日期未被选中。

尽管抽签征兵和随机对照实验的相似之处不是很明显,但其中也有一个非常关键的相似之处,即在这两种情况下,接受某种处理的对象都是随机的。为了研究这种随机处理的影响,安格里斯特选择了一个不间断运行的大数据系统——美国社会保障管理局(US Social Security Administration)的系统,该系统搜集了几乎所有美国人的就业收入信息。通过将随机被征召参战人员的信息与政府搜集的收入数据相结合,安格里斯特得出结论:退伍军人的收入比非退伍军人的收入要低15%。

正如这个例子所示,有时社会、政治或自然因素也能创造出可以被研究人员利用的实验,并且这些实验的结果有时会被不间断运行的大数据资源捕获。这一研究策略可被归纳如下:

随机(或似乎是随机的)变化+不间断运行系统的数据=自然实验

图2.5 1969年12月1日,国会议员亚历山大·皮尔尼(Alexander Pirnie)正在进行义务兵役征兵的第一次抽签。乔舒亚·安格里斯特通过将抽签征兵与美国社会保障管理局搜集的收入数据相结合,评估服兵役对收入的影响,这也是利用自然实验进行研究的一个例子(来源:美国义务兵役制,1969/Wikimedia Commons)。

我们可以通过亚历山大·马斯(Alexandre Mas)和恩里科·莫雷蒂(Enrico Moretti)在2009年的一项研究进一步了解数字时代的这一策略。该项研究试图评估与高产的同事一起工作对一名员工生产力水平的影响。在看到结果之前,值得指出的是,你可能会对此产生相互矛盾的预测:一方面,你可能会认为,出于同侪压力,与高产的同事一起工作会提高一名员工的生产力水平;另一方面,你可能会认为,拥有勤奋的同事可能会让一名员工变得懈怠,因为就算他少做甚至不做,同事也会把这份工作完成。其实,要想弄清楚一名员工的同事对其生产力水平的影响,最有效的方法就是进行随机对照实验,即让一组员工随机与不同生产力水平的员工一起工作,然后测量每一名员工的生产力水平。但研究人员并不能控制任何一个商业机构员工的工作时间安排,因此马斯和莫雷蒂只能依赖于自然实验,将一家超市的收银员作为研究对象。

在这家特别的超市里,收银员的工作时间安排和班次重叠,这使每个收银员在一天的不同时间段里会和不同的同事一起工作。此外,在这家特别的超市里,收银员的分配与其同事的生产力水平或顾客的多少是无关的。换句话说,虽然收银员的工作时间安排不是通过抽签决定的,但他们好像有时会被随机分配与生产力水平高(或低)的同事一起工作。而且幸运的是,这家超市有一个数字结账系统,能对每个收银员在任何时间扫描的商品进行追踪。利用结账日志数据,马斯和莫雷蒂能够对每个收银员的生产力水平,即每秒扫描的商品数量,进行准确的、不间断的测量。收银员被随机分配与不同生产力水平的同事一起工作以及研究人员对其生产力水平的不间断测量,使马斯和莫雷蒂得出了这样的估算结论:如果一个收银员被分配到与生产力水平高于平均水平10%的同事一起工作,那么其生产力水平也会提高1.5%。此外,他们凭借数据集的规模和丰富程度,还探究了另外两个重要的问题:这种效应的异质性(对哪些类型的员工影响更大)及背后的原理(为什么拥有高生产力水平的员工能提高其他员工的生产力水平)。在第4章进一步探讨实验时,我们将再次回归到这两个重要的话题——处理效应的异质性和原理。

通过对这两项研究进行归纳,我在表2.3中总结了其他具有相似结构的研究,它们都通过一个不间断运行的数据系统对一些随机变化的效应进行测量。在实践中,研究人员可以通过两种不同的方法寻找自然实验:一种是先有一个不间断运行的数据系统,然后在现实世界中寻找随机事件;另外一种是先有一个现实世界中的随机事件,然后寻找能捕获其影响的数据资源。

表2.3 使用大数据资源的自然实验的例子

(续表)

以上对自然实验的介绍中还未涉及一个很重要的问题,即从现有的自然条件中得到你想要的有时很难实现。让我们再以越南战争期间美国征兵为例。安格里斯特想要评估的是服兵役对收入的影响,但在该事例中,服兵役并不是随机分配的,随机的是被征召的对象。但是,不是每个被征召的人都会入伍(有各种各样的豁免),而且也不是所有服兵役的人都是应征入伍的(人们也可以志愿入伍)。因为被征召的对象是随机的,所以研究人员可以评估被征召这件事对所有服兵役人员的影响。但安格里斯特并不想知道被征召这件事的影响,他想知道的是服兵役的影响。而要想评估这一影响,就要进行额外的假设,而且还会面临额外的问题。首先,研究人员需要假设,被征召的人只有服兵役了其收入才会受到影响,该类型假设被称作排他性限定。但该类型限定也有可能是错误的,例如,如果被征召的男性为了逃避服兵役而延迟毕业或雇主不太可能雇用被征召的男性,那么影响他们收入的原因就不是服兵役了。一般来说,排他性限定是一个关键性的假设,而且人们通常很难验证其对错。但即便上述排他性限定是正确的,我们还是无法评估服兵役对所有男性的影响。相反,研究人员只能评估其对“依从者”(被征召时就会去服兵役,不被征召就不去的男性)这一特定群体的影响(Angrist,Imbens,and Rubin 1996)。但这些“依从者”不是研究人员最初想要的群体。需要注意的是,即使是利用抽签征兵这个相对自然随机的事件开展研究,研究人员还是会面临上述这些问题。因此,如果某处理方案不是以抽签这种自然的方式被实施的,那么实际的研究过程中还会出现更多的问题。例如在马斯和莫雷蒂针对收银员的研究中,关于同事的分配基本上是随机的这一假设就会引发额外的问题。如果这一假设严重失实,就可能影响他们的评估。综上所述,在利用非实验数据进行因果推断时,自然实验是一个强有力的策略,而且大数据资源也提高了我们利用自然实验的能力。但要想把自然条件中现有的变成你想要的评估对象,就需要你格外谨慎,有时还需要你进行强假定。

第二个适用于根据非实验数据进行因果推断的策略是,需对非实验数据进行统计调整,以排除接受研究和未接受研究的人在研究开展前就存在的差异的影响。这样的调整方法有很多,但我将重点介绍“匹配”这一方法。在匹配的过程中,研究人员需对非实验数据中的人进行两两配对,这两个人除了一个接受研究一个未接受研究以外,其他方面都要很相似。与此同时,研究人员事实上还需进行删减,也就是说,删去没有明显相似点的个体的数据。因此,这一方法更准确地说应被称作匹配和删减,但在本书中我还是继续使用传统术语,称之为匹配。(www.xing528.com)

关于将策略与大规模非实验数据资源相匹配,一个例子是利兰·埃纳维和同事在2015年对消费者行为的研究。他们对易贝上的拍卖比较感兴趣,在介绍他们的研究时,我将侧重于他们有关起拍价对拍卖结果(例如成交价或成交可能性)的影响的研究。

评估起拍价对成交价影响的最天真的方法,应该是直接计算起拍价不同的拍卖的成交价。如果你想根据起拍价预测成交价,那么这个方法就是适用的。但如果你想知道的是起拍价的影响,那么这个方法就不适用了,因为它不是基于一个公平的对比,也就是说,起拍价低的拍卖可能完全不同于起拍价高的拍卖。例如,它们所针对的商品类别可能不同或卖家的类型不同。

如果已经意识到根据非实验数据进行因果推断可能会出现的问题,那你可能会跳过上述这个天真的方法,而考虑开展一个实地实验,即在特定的条件下(比如说免运费,拍卖时间为两周)拍卖一个特定的物品,比如说一个高尔夫球杆,但其起拍价是随机的。

通过对比由此产生的拍卖结果,该实地实验可以让研究人员就起拍价对成交价的影响得出一个非常明确的结论。但这一结论只适用于在特定条件下拍卖的某一特定商品。如果没有强有力的理论,是很难通过这个单一的实验推断所有可能的实验结果的。而且实地实验的成本非常高昂,所以你每有一个想要尝试的变量就开展一次实地实验是不可行的。

相比于上述天真的方法和实地实验的方法,埃纳维和同事采取的是第三种方法:匹配。他们的方法的主要诀窍是从易贝上已经发生的事中找到与实地实验相似的事情。图2.6是同一个高尔夫球杆的31条拍卖信息的部分截图,其卖家都是同一个人——“budgetgolfer”。但这31条拍卖信息彼此略有不同,例如不同的起拍价、截止日期或运费。换句话说,就好像是“budgetgolfer”正在为研究人员做实验一样。

关于“budgetgolfer”出售的高尔夫球杆的这些拍卖信息,其实就是一个匹配集的例子,其中每条拍卖信息都是由同一个卖家发布的,而且针对的是同一个商品,但其他参数会略有不同。在易贝的大量日志中,有成千上万的匹配集,涉及数百万条拍卖信息。因此,不同于搜索同一起拍价的所有拍卖成交价,埃纳维和同事选择的是在匹配集内进行比较。然后,为了合并在成千上万的匹配集内进行比较的结果,埃纳维和同事用每个商品的参考价(例如其平均成交价)对其起拍价和成交价进行了重新表述。例如,如果上述球杆的参考价是100美元(根据其售价),那么10美元的起拍价就会被表述为0.1,120美元的成交价就被表述为1.2。

图2.6 匹配集示例。该图是同一个人拍卖的同一个高尔夫球杆的信息,但每条都包含不同的条件(例如不同的起拍价)。经美国经济学会转自Einavetal.(2015),图lb。

正如前文所述,埃纳维和同事感兴趣的是起拍价对拍卖结果的影响。于是他们首先利用线性回归得出了这样的评估结论:高起拍价会降低成交可能性,但能提高成交价(条件是拍卖成功)。这一评估描述的是一种线性关系,而且针对的是所有产品的起拍价的平均影响,但它本身并不是那么有趣。然后,埃纳维和同事凭借其大规模的数据又进行了一系列更加微妙的评估。例如,通过分别评估许多不同的起拍价的影响,他们发现,起拍价和成交价之间的关系是非线性的(图2.7)。尤其是在0.05-0.85之间的起拍价,其对成交价的影响是很小的,但他们最初的分析完全没发现这一点。此外,与评估所有产品起拍价的平均影响不同,埃纳维和同事分别评估了23种不同类别商品(例如宠物用品、电子产品和运动类纪念品)起拍价的影响(图2.8)。这些评估表明,对于更有特色的商品,例如运动类纪念品,其起拍价对成交可能性的影响较小,对成交价的影响则较大。而对于更商品化的商品,例如数字化视频光盘(DVD),其起拍价对成交价则几乎没有影响。换句话说,如果评估的是23种不同类型商品起拍价的平均影响,那么就无法发现这些重要的差异了。

图2.7 起拍价与成交可能性之间的关系(左)和起拍价与成交价之间的关系(右)。起拍价和成交可能性之间大致是线性关系,起拍价和成交价之间却是非线性关系。对在0.05~0.85之间的起拍价来说,其对成交价的影响是很小的。上述两种关系基本上是不受商品价值影响的。改编自Einav et al.(2015),图4a和图4b。

图2.8 研究人员分别针对每类商品进行的评估。实心圆点是将所有类别的商品汇集在一起的评估结果(Einav et al.2015)。这些评估表明,对于更具特色的商品,例如运动类纪念品,其起拍价对成交可能性的影响(x轴)较小,对成交价的影响(y轴)则较大。改编自Einav et al.(2015),图8

即便对易贝上的拍卖不是特别感兴趣,你也不得不承认,相比于描述一种线性关系且将许多不同类别的商品汇集在一起而进行的简单因果推断,图2.7和图2.8让我们对易贝有了更丰富的认识。此外,尽管从科学上来说,利用实地实验进行这些因果推断也是有可能的,但高昂的成本使这一方法基本不具有可行性。

与自然实验一样,利用匹配进行因果推断在很多情况下也会产生错误的结论。我认为利用匹配进行因果推断最大的问题是,其正确性会受到匹配时未考虑因素的影响。例如,在埃纳维和同事得出其主要评估结论的研究中,他们把卖家账号名称、商品类别、商品标题及副标题这4个特征作为精确匹配的条件。如果商品在上述4个特征以外存在差异,就会导致对比的不公平性。例如,如果“budgetgolfer”在冬季(高尔夫球杆的销售淡季)降低了球杆的起拍价,而其最终的成交价也刚好低于其他季节,那么研究人员就可能得出这样的结论:低起拍价会导致低成交价,但实际原因是需求的季节性变化。解决这一问题的一种方法是尝试多种不同的匹配。例如,埃纳维和同事分别以不同的时间为条件对拍卖信息进行了匹配(即分别创建了包含一年内、一个月内以及同期内出售的商品的匹配集),并对所有匹配集进行了相同的分析。幸运的是,所有匹配集的分析结果都是相似的。匹配的另外一个问题来自解读。也就是说,针对某一匹配集所得出的因果推断结论仅适用于该匹配集内的对象,对于该匹配集以外的对象是不适用的。例如,因为埃纳维和同事将研究对象限制为同时具有多条拍卖信息的商品,所以他们关注的都是专业和半专业卖家。因此,在解读这些对比时,我们必须记住,这些解读仅适用于易贝上的这一群体。

匹配是从非实验数据中找出合适的对象,从而进行公平比较的一项有力策略。相比于实验,许多社会科学家可能觉得匹配是一个退而求其次的方法,但这一理念有时也需要稍做调整,例如当(1)影响的异质性不容忽视;(2)已经测量了匹配所需的重要变量时,在大量数据中进行匹配可能比开展少量的实地实验要有效。表2.4是一些有关如何将匹配这一策略与大数据资源配合使用的事例。

综上所述,利用非实验数据进行因果推断是很困难的,但可以借助诸如自然实验和统计调整(例如匹配)等方法。尽管这些方法在某些情况下会出现严重的错误,但只要谨慎运用,还是有助于解决一些我将在第4章介绍的实验方法无法解决的问题的。此外,不间断运行的大数据系统的发展似乎尤其能为自然实验和匹配这两个方法带来益处。

表2.4 利用匹配从大数据资源中找出合适的比较对象的研究实例

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈