首页 > 范文大全 > 正文

统计数据的陷阱

开篇:润墨网以专业的文秘视角,为您筛选了一篇统计数据的陷阱范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

统计数据打的交道多了,什么事情都能遇上。统计数据显示,在铀矿工作的工人居然与其他普通人的寿命相当,有时甚至更长!难道统计结果表明在铀矿工作对身体无害么?

当然不是!其实,统计数据本身并没有说谎,铀矿工人的寿命真的不比普通人低,难就难在我们如何拨开数据的外表,从中挖掘出正确的信息。事实上,只有那些身强体壮的人才会去铀矿工作,他们的寿命本来就长一些,正是因为去了铀矿工作,才把他们的寿命拉低到了平均水平,造成了数据的“伪独立性”。这种现象常常被称为“健康工人效应”。

类似地,有数据表明打太极拳的人和不打太极拳的人平均寿命相同。事实上呢,太极拳确实可以强身健体、延长寿命,但打太极拳的人往往是体弱多病的人,这一事实也给统计数据带来了虚假的独立性。

有虚假的独立性数据,就有虚假的相关性数据。统计数据显示,去救火的消防员越多,火灾损失越大。初次听到这样的结论,想必大家的反应都一样:这怎么可能呢?仔细想想你就明白了:正因为火灾损失大,才会有很多人去救火,因果关系弄颠倒了。数据只能显示两件事情有相关性,但并不能告诉你它们内部的逻辑关系。

事实上,两个在统计数据上呈现相关性的事件,有可能根本就没有因果关系。统计数据表明,冰淇淋销量增加,鲨鱼食人事件也会同时增加。但这并不意味着,把冰淇淋销售点全部取缔了,就能减小人被鲨鱼吃掉的概率。真实的情况则是,这两个变量同时增加只不过是因为夏天来了。统计数据显示,足球队的获胜率,竟然与队员的球袜长度成正比。难道把队员的球袜都换长一些,就能增加进球数了吗?显然不是。数据背后真正的因果关系是,球队的获胜率和队员的球袜长度都与队员的身高呈正相关,这导致了获胜率与球袜长度之间表现出虚假的相关性。

类似的例子还有很多。统计数据表明,手指越黄的人,得肺癌的概率越大。但事实上,手指的颜色和得肺癌的概率之间显然没有直接的因果联系。手指黄和肺癌都是由吸烟造成的,于是又营造出一种虚假的相关性。

读到这里,大家脑子里或许会产生这么一个颠覆性的念头:根据同样的道理,我们又凭什么说吸烟会致癌呢?万一吸烟和肺癌也都是由另外一个东西同时导致的怎么办?

其实,要想知道吸烟与癌症之间究竟是否有因果联系,方法本来很简单:找一群人随机分成两组,规定一组抽烟另一组不抽烟,十几年后再把这一拨人找回来,看看是不是抽烟的那一组人患肺癌的更多一些。但是这个实验方法太不道德了,因此我们只能考虑用自然观察法,选择一些本来都不吸烟的健康人进行跟踪观察,然后呢,过一段时间这拨人里总会出现一些犯上烟瘾的人,于是随着时间的流逝这帮人自然而然地分成了可供统计观察的两组人。注意,这里“是否吸烟”这一变量并不是通过随机化得来的,它并没有经过人为的干预,而是自然区分出来的。这是一个致命的缺陷!统计结果表明,犯上烟瘾的那些人得肺癌的几率远远高于其他人。这真的能够说明吸烟致癌吗?仔细想想就会发现这当然不能!原因恰似之前提过的例子:完全有可能是因果关系颠倒了,或者某个第三方变量同时对“爱吸烟”和“患肺癌”产生影响。1957年,费希尔提出了两个备选理论:癌症引起吸烟(烟瘾是癌症早期的一个症状),或者存在某种基因能够同时引起癌症和烟瘾。