样本选择的重要性:幸存者偏差的例子
为什么样本的选择如此重要?因为样本的选择将直接决定研究的最终结果:一方面,不具有代表性的样本无法反映出总体的真实情况;另一方面,错误的样本也将导致错误的结论,甚至使整个研究都失去意义。
1941年,在第二次世界大战中,盟军的战机在多次空战中损失严重,无数次被纳粹炮火击落,盟军总部秘密邀请了一些物理学家、数学家及统计学家组成了一个小组,专门研究“如何减少空军被击落的概率”这一问题。当时军方的高层统计了所有返回的飞机的中弹情况——发现飞机的机翼部分中弹较为密集,而机身和机尾部分中弹则较为稀疏,于是当时的盟军高层的建议是:“加强对机翼部分的防护。”但这一建议被小组中的一位来自哥伦比亚大学的统计学教授——沃德(Abraham Wald)驳回了,沃德教授提出了与其完全相反的观点——加强对机身和机尾部分的防护。
那么这位统计学教授是如何得出这一看似不符合常识的结论的呢?沃德教授有此观点的基本出发点基于3个事实:①统计的样本只是平安返回的战机;②被多次击中机翼的飞机,似乎还是能够安全返航的;③在机身机尾的位置,很少发现弹孔的原因并非飞机真的不会中弹,而是一旦中弹,其安全返航的概率极小,即返回的飞机是幸存者,仅仅依靠幸存者做出判断是不科学的,而那些被忽视的非幸存者才是关键。
军方采用了教授的建议,加强了对机身和机尾的防护,并且后来证实该决策是无比正确的,盟军战机的被击落率大大降低,这就是“幸存者偏差”故事的来源。
又如在1936年美国总统大选期间,某杂志相关人员通过对140万人的电话调研显示,A参议员会赢得大选,但是最终是B参议员赢得了大选。这是因为当时电话属于奢侈品,属于美国当时的精英阶层专有,所以电话调研会遗漏掉很多民众,导致调研结果的巨大偏差。
研究者在面临问卷的样本选择、样本来源的选定、样本抽样渠道的选定时,要时刻注意避免出现这种偏颇。