首页 理论教育 父母身高与孩子身高并非正相关

父母身高与孩子身高并非正相关

时间:2023-11-16 理论教育 版权反馈
【摘要】:根据高尔顿的研究,只要研究对象受到随机性的影响,就会发生回归平均值现象。每对父子都对应两个数字,也就是父亲的身高和孩子的身高。父亲较高的孩子由于受到回归平均值现象的影响,因此与父亲不高的孩子的身高没有区别。儿子们的平均身高略低于72英寸,也就是说超过男性的平均身高,但没有他们的父亲高。

父母身高与孩子身高并非正相关

根据高尔顿的研究,只要研究对象受到随机性的影响,就会发生回归平均值现象。不过,与遗传因素相比,随机性的影响力有多大呢?

单凭数据,高尔顿无法找出其中的玄机,因此,他必须把这些数字转变成图表的形式。后来,高尔顿回忆说:“我拿出一张白纸,用尺子和笔在上面画出坐标轴,横轴表示孩子的身高,纵轴表示父亲的身高,并标记出对应每个孩子及其父亲身高的那个点。”

这个直观展示数据的方法汲取了勒内·笛卡儿(René Descartes)解析几何的精髓。解析几何要求我们把平面中的点看成一对数字,分别为横坐标和纵坐标,由此把代数和几何学紧密地联系在一起

每对父子都对应两个数字,也就是父亲的身高和孩子的身高。我父亲的身高是73英寸,我也一样,因此我们在高尔顿的数据集中就会被记录成(73,73)。高尔顿在图中表示我们父子时,会在横纵坐标都是73的位置上画一个标记点。在高尔顿的庞大数据集中,每对父子都会在坐标图上对应一个标记点,因此,这张图上会有很多点,能够直观地显示出身高差异的变化情况。就这样,高尔顿发明了现在被我们称为“散点图”(scatterplot)的图表类型。

在揭示两个变量之间的关系时,散点图可以发挥惊人的作用。随便翻开任何一种科学杂志,我们都能看到散点图。19世纪后期是数据可视化黄金时代,1869年,查尔斯·密纳德(Charles Minard)完成了他的那幅非常著名的示意图,展示了在入侵俄罗斯的途中拿破仑军队的规模逐渐减小,直至最后从俄罗斯撤退的情形。这幅示意图被称作人类有史以来最伟大的数据图,其实这幅图是在弗罗伦斯·南丁格尔(Florence Nightingale)的“玫瑰图”(coxcomb graph)的基础上演变而来的。南丁格尔完全借助可视化的方法,指出在克里米亚战争中绝大多数英国士兵不是被俄罗斯人杀死的,而是死于传染性疾病

玫瑰图与散点图都非常适合我们的认知能力。我们的大脑不习惯接收一列列的数字,但是特别善于在二维图表中找出规律与隐含的信息。

在某些情况下,这些规律与信息并不难发现。举个例子,假设每对父子的身高都相同,就像我的父亲和我。这种情况说明,随机性没有发挥任何作用,我们的身高完全是由遗传因素决定的。相应地,散点图中所有点的横坐标与纵坐标都相同,换言之,这些点都在方程式x=y表示的直线上。

请注意,在这条对角线的中间位置点的密度大,而两端的密度小。这是因为身高69英寸的人比身高73英寸或者64英寸的人多。

如果父子的身高没有任何相关性,那么在这种相反的极端情况下,会出现什么结果呢?此时,我们会得到下面的散点图:

这幅图与前面的散点图不同,没有表现出构成对角线的任何趋势。如果我们集中考虑父亲身高为73英寸的那些孩子的情况,也就是散点图右半部分中的一个垂直细长条的情况,就可以看出他们孩子的身高仍然会集中在69英寸周围。这表明儿子身高的条件期望值(也就是说,在父亲身高为73英寸时儿子的平均身高)与无条件期望值(在没有任何限制条件时儿子的平均身高)相同。父亲较高的孩子由于受到回归平均值现象的影响,因此与父亲不高的孩子的身高没有区别。这是回归平均值的极致形式。

如果遗传基因不会造成身高差异,高尔顿画的图就会与这幅图相似。但是,高尔顿的散点图与上面两种极端情况下的数据图都不相同,而是两者中和的产物。

在这幅图中,当父亲的身高为73英寸时,儿子的平均身高是多少呢?我在图中画出了一个垂直的细长条,与这些父子的情况相对应的点就位于这个区域中。

从上图可以看出,在“父亲的身高接近73英寸”这个细长条中,对角线下方的点比对角线上方的点更加密集,这表明儿子的平均身高没有超过父亲。同时,这些点大多位于男性平均身高(69英寸)的上方。儿子们的平均身高略低于72英寸,也就是说超过男性的平均身高,但没有他们的父亲高。所以,我们看到的这幅图表现出回归平均值的特征。

高尔顿很快发现,他的这幅表现遗传因素与随机性相互作用的散点图中形成了某种几何图形。这个几何图形没有表现出任何随机性,而是一个近似椭圆的形状,其中心位置对应的就是父母与孩子正好都是平均身高的那个点。(www.xing528.com)

数据构成的倾斜椭圆形在下页表中表现得更明显,大家可以观察非零数据项在表中形成的图形。此外,这张表也表明我对高尔顿数据集的介绍还有所保留,例如,他所选用的纵坐标并不是“父亲的身高”,而是“母亲的身高乘以1.08加上父亲的身高再除以2”,高尔顿把它称作“中亲值”(mid-parent)。

事实上,高尔顿还做了一些其他工作,他在散点图上小心翼翼地沿着密度大致相同的点画出多组曲线,这种曲线叫作“等值线”(isopleth)。以美国地图为例,我们用曲线分别把今天最高温度正好是75华氏度、50华氏度[1]或其他度数的所有城市连接起来,就会得到“等温线”(isotherm),我们在气象图中经常可以看到这种曲线。真正专业的气象图可能还包括“等压线”(isobar,大气压相同地区的连线),或者“等云量线”(isoneph,云量相等地区的连线)。如果我们测量的不是气温而是高度,这些等值线就会变成地形图上的“等高线”(isohypse)。本书第275页的等值线图表示的是美国各地发生暴风雪的年平均次数。

等值线的发明者并不是高尔顿,第一幅公开发表的等值线图是由英国皇家天文学家埃德蒙·哈雷于1701年完成的。我们在前文中讲过哈雷向英国国王介绍如何为终身年金保险定价的故事。航海家们早就知道磁北与真北并不完全一致,在远洋航行中,准确了解这种不一致情况的发生时间与原因,对于顺利航行显然具有非常重要的意义。哈雷绘制的是“等偏线”(isogon),可以告诉水手在哪些地方磁北与真北之间的差值相同。这些数据都是哈雷在“帕拉莫尔”号上测量得出的,当时,哈雷亲自掌舵,驾驶“帕拉莫尔”号几次横渡大西洋。(这个家伙在研究彗星的间隙也不闲着。)

205对身高不等的中亲所生子女成年后的身高状况

注:在计算中值时,各数据项均选取该数据项的中间值。表头所给的数字为62.2、63.2等数值,而没有选用62.5、63.5等,原因是观察结果不均匀地分布在62与63、63与64之间,但是人们却明显偏好选用整数来表示人的身高。经过慎重考虑,我认为本表所选用的表头最符合研究的前提条件。在关于中亲身高的观察数据中,没有发现明显的不均匀性。

高尔顿发现自己绘制的散点图表现出惊人的规律性:所有等值线都是椭圆形,一个包含另一个,且中心都在同一个点上。这幅图就像一座山峰的标准等高线图,最高点是父亲与儿子平均身高所对应的点,而这两个身高在高尔顿的散点图中出现的次数最多。其实,这座山峰就相当于棣莫弗曾经研究过的“法国警察的帽子”,只不过是三维的,用专业术语表达就是“二元正态分布”(bivariate normal distribution)。

侧视图

俯视图

如果像本章第二幅散点图那样,儿子的身高与父母的身高没有任何相关性,这些椭圆形就会变成圆形,散点图的形状看上去也大致呈圆形。如果像本章第一幅散点图那样,儿子的身高不受任何随机性的影响,而完全由遗传基因决定,这些点就会沿着一条对角线排列,我们可以把它看成是一个被压扁了的椭圆形。在这两种极端情况之间,有胖瘦程度各异的椭圆形。胖瘦程度在经典几何学中被称作椭圆形的“离心率”(eccentricity),可以测量父亲身高对儿子身高的影响程度。离心率高则意味着遗传因素的作用大,而回归平均值的作用小;离心率低则意味着相反情况,此时回归平均值起到决定性作用。高尔顿则把这个量叫作“相关系数”(correlation),这个概念一直被沿用至今。当高尔顿的椭圆形接近于圆形时,相关系数接近零;当椭圆形很扁并且它的轴沿着东北—西南方向延伸,相关系数就接近于1。高尔顿发现,借助离心率(这是一个非常古老的几何量,它的历史至少与公元前3世纪阿波罗尼奥斯的研究成果一样久远)可以测量两个变量之间的相关性,这样,19世纪生物学的一个前沿问题——遗传因素作用的量化问题就迎刃而解了。如果我们是适度的怀疑论者,就会想到一个问题:假如我们的散点图看上去并不像一个椭圆形,会怎么样呢?实用主义者的答案是:在实践中,我们根据现实数据集绘制的散点图通常大致呈椭圆形。虽然不是一贯如此,但是经常如此,因此这项技术可以得到广泛的应用。下面这幅图表现的是2004年约翰·克里(John Kerry)的得票率与2008年巴拉克·奥巴马的得票率的对比。图中每个点分别代表休斯敦的一个地区。

在这幅图中,椭圆形清晰可见,而且非常扁,这说明克里的得票率与奥巴马的得票率高度相关。此外,大多数点位于对角线上方,这说明奥巴马的总体得票情况优于克里。

下面这幅图表现的是谷歌公司与通用电气公司在几年时间内的日股票价格波动情况。

下面这幅图我们在前文中见过,它表现的是SAT平均分与北卡罗来纳州若干大学的学费之间的关系。

这些数据来源各不相同,但是,三个案例的散点图的形状跟表现父亲与儿子身高的散点图相似,都近似椭圆形。在第一和第三个例子中,相关系数为正值,表示一个变量的增加与另一个变量的增加存在相关关系,椭圆形由东北指向西南方向。在第二个例子中,相关系数为负值,说明比较富裕的州倾向于支持民主党,椭圆形由西北指向东南方向。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈