《统计数字会撒谎》
作者:(美)达莱尔·哈夫
版本:中国城市出版社
生活的经历告诉我们做事情一定要“心中有数”,但心中有数首先要眼里有数,所以我们习惯于“实证方法”,通过调查得出统计数据,再做成表格、数字、柱状图、折线图、曲线图、模拟曲线、回归曲线,好了,这下,我们踏实了。
美国著名统计学家达莱尔·哈夫的《统计数字会撒谎》或许能让我们对于统计中的陷阱有入木三分的认识。达莱尔提出,当你面对统计数据时,先要问自己5个问题:谁说的?他是如何知道的?遗漏了什么?是否有人偷换了概念?这个资料有意义吗?
我们很注意电视、报纸上卖药的广告,“中国有百分之××”的人“缺钙”“前列腺”“性机能”……这个“百分之××”是多少呢?一般是70%、80%、90%。很奇怪,过去凭票过日子的时候,中国人啥成分不缺,现在怎么什么都缺?
统计的陷阱在哪里呢?首先是统计本身的不真实性,比如统计样本的选择偏差,或是样本空间过小,导致代表性差。
比如说,抽取10个样本和抽取1000个样本,显然是不一样的。当初美国某大学有一个惊人的统计数字,该校物理系有50%的女生和男教师同居,校方大为震惊,仔细调查,确实如此,该系有两名女生,其中一人与男教师堕入爱河……
如果统计者在统计样本的选择上有意无意地做出一些“猫腻”来,就能够得到预期的统计结果。统计的另一个陷阱在于统计之后的分析过程,在分析中,统计者是否遗漏了什么?或者忽视了统计所依赖的条件?
以突发事件代替常态,以小样本推广到大样本,如果忽视了一些重要的因素,分析过程就会产生缺陷。即使是正确的统计数字也未必能得到正确结论。
□王小柔