首页 理论教育 随机实验在因果推断中的关键作用

随机实验在因果推断中的关键作用

时间:2023-07-08 理论教育 版权反馈
【摘要】:基于上面的这个讨论,我们可以分析一下随机实验的重要作用。简单来说,随机实验对于因果推断之所以重要,主要是因为这个方法可以让研究结论尽可能归于系统变化而非随机扰动。所有其他混淆因素都通过随机化的方式拉平,以至于实验组和控制组在混淆因素上已经没有系统性差异。当然,社会学很少做随机实验,这其中有太多的伦理限制。

随机实验在因果推断中的关键作用

正如上文所述,对于因果推断而言,随机实验可以说得上是最好的方法了。那么,随机实验为什么可以成为因果推断的重要工具乃至“金标准”呢?这一部分我们就具体讨论一下这个问题。

通常来讲,基本上做任何一个经验研究,最终目的只有一个,就是把影响Y系统性变化的原因找出来。什么是Y系统性变化的原因呢?比如说一个国家的煤炭消耗量,如果我们有一个时间序列数据的话,会发现,到了冬天,煤炭消耗量就上去,到了春天逐渐下降,夏天达到最低,到了秋天又慢慢上去。换句话说,对于煤炭消耗量而言,有一个季节性的变动状态,这个就是所谓的系统性变化。同样,受教育水平高的人收入就高,教育水平低的人没有教育水平高的人收入高,这也是一个系统性的变化。因为通过教育这个变量,我们可以将收入水平区分出高低两组,且组间收入差异很大。但是,如果收入是大家扔硬币决定的,扔一个硬币,正面的话1 000元,反面的话2 000元,那么我们的研究就没有办法去刻画系统变化。这是因为收入Y的变化,完全是因为一些随机事件造成的,我们几乎没有什么有价值的规律可以总结出来。

可以说,任何经验研究,针对任何一个我们感兴趣的响应变量,它的变化情况都有两个来源,一个是系统变异,这个系统变异通常是我们关心的处理变量带来的。另外一个可以叫做随机扰动,即这部分响应变量的变化是随机发生的,我们很难了解它的基本状态,因为它本身就是一个随机现象。如果用f(D)表示因为处理变量造成的Y的系统变化,e表示随机扰动,那么Y的取值可以表示为二者的加总:

这个模型和传统的OLS模型本质上是一样的。在面对这个模型的时候,我们通常关心的是,这个随机扰动e或许看起来是随机扰动,但是它背后可能还有其他的因素在发挥作用。比如,Y如果是收入情况的话,我想知道什么决定了被研究对象的收入。上大学自然是一个决定收入系统变化的D,即上不上大学能够带来收入的系统变化,这是一个系统变异。但是对于收入而言,还有一些其他的随机的扰动因素存在,这些因素或许是综合了很多其他的收入决定因素而形成的。此时,如果这个随机性的变异太强,以至于系统性变异非常弱,那么一项研究的价值就会大打折扣。换句话说,Y的变化是一个固定的值,如果我们找到的所谓系统性变化只是占了总体Y变化的一个很小的比例,比如5%,剩下的95%都是因为随机变异造成的,这个结论基本上没有太大的价值[2]。基于上面的这个讨论,我们可以分析一下随机实验的重要作用。

简单来说,随机实验对于因果推断之所以重要,主要是因为这个方法可以让研究结论尽可能归于系统变化而非随机扰动。当然,在进一步讨论之前,需要注意,这里有一个前提,即样本一定要足够大。如果样本很小的话,统计检验力是不够的,因而结论就是不可靠的。统计检定力差,会造成很多时候处理变量的效果不显著。举一个例子,想知道在一个大学中生活的学生快乐不快乐。我们的研究仅仅在学校中随便找了一个学生询问其是否快乐。这个人说今天挺快乐的。此时如果我们得出结论,认为所有的这个大学的学生都很快乐,这明显是不对的。因为一个观测样本的统计力度不够,信息实在是太单薄了。要想知道整体的情况的话,可能需要问50个人或者500个人,才能作一个比较可靠的统计推断。因此,当我们在谈论随机实验的价值的时候,只要我们希望进行进一步的结论推广,我们就不得不尽可能保证随机实验的参与样本足够大。至于多少可以称得上是大样本,有专门的统计样本计算方法可供参考。此外,这里我们说需要大样本,也是因为我们希望保证研究不仅仅有内部有效性,也希望有外部有效性。对于社会科学而言,外部有效性是不可或缺的。我们研究一个小的样本,最终还是希望能够了解更多的人的情况,而不是就500个人谈500个人。(www.xing528.com)

假设样本足够大,那么随机实验的好处就在于,因为被研究对象是随机分配到不同的处理变量取值水平的,所以除了处理变量之外,其他所有的可见的不可见的混淆因素在两组之间都会被拉平。为了更好地理解这一点,不妨设想一个研究情景。如果一项医学研究希望检测某项药物的药效,但是一开始只找了两个人,一个人进了实验组,一个人进了控制组。由于样本实在太小,检定力肯定是不够的。因为这两个人除了吃药不吃药以外,他们有太多不同的地方了。比如说两人可能正好一男一女,男的进了实验组,女的进了控制组。我们不知道他们在药效Y上的表现差异是因为实验组和控制组的区别还是因为性别的区别。这时候我们需要找更多的人进入研究。假设又找两个人,又是一男和一女,对他们再去随机分配,然后我们会发现,实验组的人变成一男一女,控制组的人也变成一男一女了。因为性别达到了平衡,这个情况就要比一开始的两个被研究对象的情况好很多。但还是不够,因为除了性别之外,还有别的影响药效的因素存在,比如老中青的年龄因素。作为研究人员,我们不得不不断地寻找新的研究对象,找到之后随机分配,一拨人进了实验组,一拨人进了控制组。大家可以想象一下,当我们不断重复这个过程的时候,这些潜在的看得到的或者看不到的混淆因素是不是都逐渐被拉平了?答案是肯定的。这个结论实际上有统计学的证据支持。长久来看的话,除了处理变量之外,所有的其他影响Y变化的因素在实验组和控制组两组之间平均而言都是一样的,不会有显著性差异。如果达到这种状况以后,实验组和控制组之间只有一个因素不一样,就是一组吃药了,一组不吃药。自然,如果我们最后发现实验组的比控制组的状态好(或者状态差),由于其他混淆因素都被拉平了,我们没有办法将这种组间差异归因于别的因素,只能够归因于吃药和不吃药这一处理变量了。所以说,随机实验的好处就在于,实验组和控制组的被研究对象如果在响应变量Y上有任何变化的话,只能归因于处理变量的取值不同。所有其他混淆因素都通过随机化的方式拉平,以至于实验组和控制组在混淆因素上已经没有系统性差异。

当然,社会学很少做随机实验,这其中有太多的伦理限制。例如,研究离婚对于精神状态的影响,我们不可能找来一帮夫妇,扔硬币随机决定,如果是正面就去办离婚证,如果是反面就回去接着一起生活。还有抽烟,如果要研究抽多少烟会对抽烟者造成身心伤害,我们也不可能扔硬币来决定,正面的话就让被研究对象回去每天抽五包烟,反面的话回去不要抽烟。因此,虽然随机实验是目前为止最好的展现因果关系的方法,但很多时候我们没有办法将这种研究用在人类身上。正因为如此,我们很多分析都是基于已经收集好的数据,也就是前文所谈到的基于观测资料的研究(observational studies)。观测性研究和实验研究最大的区别在于,不是研究者先找被研究对象并随机安排处理变量,而是先去收集很多调查资料,收集回来以后区别哪些人已经接受处理变量影响,哪些人没有接受处理变量影响。这和实验研究相比,代表了不一样的思路。以上面的药物研究为例,实验研究中研究者主动来找来一帮被研究对象,然后安排处理变量决定什么人吃药,什么人不吃药。而观测性研究则是,不管被研究对象的状态怎么样,研究者先在人群中抽样,抽到了被研究对象后,倒回去问他或者她有没有吃药,同时抽样后的问卷调查也会考察被研究对象的精神状态,以此探索其与吃药与否之间的关系。

和随机实验相比,观测性研究中很多潜在的混淆因素的影响都没有办法完全消除。如果是随机实验研究的话,吃不吃药是扔硬币的结果来决定的。但如果采取观测性研究(比如中国综合社会调查),被研究对象吃药不吃药有可能是他自己决定的。很显然,有很多因素决定了被研究对象是否吃药,因此人们进入实验组和控制组的过程不是随机的(比如,一个人感觉舒服的话就不吃药,不舒服才吃药)。既然不是随机的,那么就会有很多我们不希望看到的系统性偏差进来,这些系统性偏差有的是我们能够观测到并控制起来的,有的是我们观测不到无法处理的。我们只能采取一些后续的统计分析技术,尽量让观测性研究“像”随机实验。换句话说,研究者在收集资料后,通过统计处理,尽量把这些混淆因素在实验组与控制组之间平衡一下。但需要注意的是,这些都属于后续的努力,因此都不是最优的研究设计。打个比方,随机实验是将分析的计划纳入资料收集和研究设计过程,有些像人还没去世的时候做体检。但是,收集完资料用统计技术进行资料的补充处理,就好像是人已经死了,我们给他做尸检,这是两种不同的思路。很明显,人没死的时候做体检,很容易知道他如果有了某个疾病之后会造成什么结果。但如果人都死了,再去究竟什么原因造成他死亡,就会有太多的混淆因素进来。所以说,如果一项研究可以做随机实验,当然尽可能做随机实验。随机实验还有一点好处,研究者不需要控制任何其他混淆变量。因为,通过随机分配的方式,所有的处理变量之外的影响响应变量取值的因素,理论上都已经在实验组与控制组之间达到平衡了。因此,研究者只需要看一看实验组和控制组在响应变量上取值是不是有差异就可以了。这本质上就成了传统的T检验。如果我们希望考察其他的因素,再作一个方差分析也就可以了。这在很多基于实验的经验分析中很常见。比如,在一个大学招募20个学生,通过随机分配,给10个学生糖吃,给10个学生辣椒吃,看他们的心理状态怎么样。类似的研究不需要收集被研究对象的很多其他背景资料。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈