本书原名《如何利用统计说谎》,由于意识不良,具有误导性,遂改名《统计陷阱》,中文新版改回接近原名的《统计数字会撒谎》(http://www.douban.com/subject/3595095/)。深谙统计之道的作者显然是个高超的骗子,本书虽如原名所说,可以当成行骗宝典,但作者本意并非如此,而是防骗宝典,知道怎么行骗才能知道怎么防骗,作者起名如此,出于何意已经不重要,有噱头有吸引力是事实。同一本书,包装不同,给人感觉也不同,这本感觉比较正经,既像科普读物又像学术着作,因为封面推荐语和出版社,使得本书又更像是投资书;而新版则像是一本通俗读物,典型的畅销书风格。统计数字就是一种包装,将真实的情况用数字这种看似最靠谱的东西来说明,一本好书,经过新的包装,让更多的人看到也算是件好事,不过一个事实用统计数据来掩盖或扭曲就是一种作恶了。
数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。要认清这些骗子伎俩,唯有对统计学本身有一定的了解。
毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。
就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。尤其是对于***做出的统计数据,我们几乎是当笑话在看了,比如平均工资的统计,我们经常会觉得自己的工资连平均都没达到,那么是不是这些统计错了呢?不是,它们没有错,显然是因为有部分群体工资偏高,从而导致了总体平均数偏高,这里的平均数是指均值,平均数有均值、中位数、众数三种,均值一般是三者中能够得到的最大平均数,在没有点明是哪种平均数的情况下,通常就是均值,但人们正是可以利用这点来做出各种不同的平均数来达到自己的目的。类似这种统计数据,它本身并没有错,错的是我们赋予了它与原统计数据含义不同的其他意义,以致被误读了,当然,很多时候并不是我们在赋予,而是调查者本人有意为之。比如,XXX的覆盖率有多高,并不是表示XXX的使用率也是这样,它说明的就是覆盖率而不是其他,所以当我们看到原始数据中的XX率被替换成另一种XX率时,我们就应该注意,这样的替换多数是牵强附会的(其实,未必需要别人帮我们替换,我们自己的思维会主动做其他理解,统计骗子显然深谙此道)。
以上,说的是本身正确的研究成果被媒体报道后却成了荒诞的结果的情况,这些数据还会被人穿凿附会用来谋利或证明自己的观点。这在媒体里占了很大一部分,尤其是对于严肃的科学研究。除此之外,更多的是不严谨的统计调查和骗人的统计数据,这些也常见于各种媒体上,当然,这些本身错不在媒体,但是正因为他们不报道数据来由,才导致人无法看清统计数字的真面目(做调查的人本身不提供那又是另一种情况了)。这样的错误太多了,本书的其他评论里也提到了很多,没必要再啰嗦了。记住,在不知道统计数据如何得出的情况下,切忌太当真。
本书页数不多,说的主要是统计数据是怎样骗我们的,可以说是入门级的小儿科,它忽略或省略了另外一个广泛存在于我们自身的统计骗子,那就是我们自身所犯的统计错误不亚于其他人骗我们的,这与自欺无异,但又不局限于自欺,还会无心骗到他人。这说明了,我们关心的是人家怎样骗我们,却不知自己身上也存在同样的问题。
掷骰子,连续掷出5个6,很多人都会认为下一次再出现6的几率会降低,因为在我们看来,掷出个6本身就不容易,再加上已经连续掷出了5次,那下次再掷出6的几率自然是更低了,其实掷出6的概率还是1/6,这在我们高中数学排列组合时就已经学过,相互独立事件是不会影响彼此概率的。然而,尽管我们知道这个,感性上我们还是会认为概率降低了,类似这样的事多不胜数。
当我们经常看到飞机失事和犯罪的新闻,就会认为飞机失事率和犯罪率越来越高了,感慨坐飞机越来越不安全,世风日下。而实际上,这些只是媒体对某一方面有所侧重的报道所导致的“假象”。某某产品真垃圾,某某网站服务态度真差,这样的抱怨网上到处都是,几乎没有产品和网站能够躲得过,那么是不是真的如那些人说的那么差?未必,因为人们往往只会抱怨那些不幸的事,而我们眼里也往往只容得下这些负面的言论,对这些印象也会格外的深,于是,我们忘记了还有很多沉默的大多数用户和其他正面的言论。
同媒体一样,我们的记忆也会有选择性,尤其是当我们遇到重大事件后,往往容易回忆起事情发生之前某些事发后觉得“异常”的事,认为这是征兆,而事实是这样的行为经常发生,只是平常这些东西对我们没多大用处,所以都忘记了。这就是“事后诸葛亮”。我之前提的那个跳高导致地震的例子,由于地震这件事比较特别,我在事后回忆时想起了当时做过这个比较特殊的事,于是我认为是跳高导致了地震,如果没有发生地震我就不会记得这件我经常在做的事,而与此同时,同样在跳高的人显然不会只有我一个,我有幸成为其中一员,正好碰到了,就是这么巧。
电视剧里的人常说,“怎么这么巧?”,我答,就是这么巧。是的,就是这么巧。我们往往低估了巧合发生的概率。比如,我们碰到一个与自己同一天生日的,就会大叹真巧啊,进而感慨一下缘分。以一个班为例,假设这个班有60名学生,至少有2人是同一天生日的概率超过99%,50名学生也有97%,40名就是89%,没有碰到反倒是低概率事件了,事实上只要有23人就足以让概率达到50%,需要注意的是,这里只是指有两个人是同一天生日的概率,而不是给定的一个具体日期,如若是这样,那么概率就要低很多了。一个篮球运动员,投篮20次,至少连入4球的概率几乎是50%。再比如地震预测,不要以为这个难预测,其实我们每个人都可以很容易地做出预测,每年发生那么多大的小的地震,蒙对的概率是很高的,就是这么巧,蒙对了,何况在做预测的人多着呢,你碰不到,也有他碰到。
同一个统计结果,换不同的方式来表达会让人有不同的感觉,比如说一个手术,跟病人说有10%的概率会死,那么病人多数会犹豫不决,如果跟病人说有90%的存活率,那么病人选择做的可能性就会大很多。
想象,一个号称自己具有超能力的电视直播节目的主持人,他说只要观众配合,集中注意力,他就能够远距遥控硬币,让他们连掷十次硬币都是同一个面朝上,成功的观众就打电话来告知,由于电视观众众多,假设有一百多万,那么大概就会有十多万观众被成功远距遥控,不用全部的十万来打电话,只用上千个人甚至几百个人来证实就足矣,即使有很多人怀疑这个没用,但是当看到这么多人在证实后,你于是动摇了,认为是自己当时精力不够集中。这是算命的常用的把戏的一个变种,屡试不爽,换个马甲照样忽悠我们,我们自己身上也有很多变种。
以上,只是藏在我们身上的一小部分统计骗子,因为这些骗子,我们不止被人骗还被自己骗。骗人不一定要用数字,统计学的逻辑无处不在,要活学活用统计思想。
对待统计数据,作者告诉我们要问5个问题,“谁说的”,”他是如何知道的”,“遗漏了什么”,“是否有人偷换了概念”,“这个资料有意义吗”,以后看数据看新闻,如果自己看到后激动了,有话要说,那么先憋着,然后提醒自己问一下这几个问题,别骂完后才发现原来是假的,很丢脸的。
统计数据靠不靠谱固然重要,对待统计数据的态度显然更重要,这里的态度除了本书里提到的,最重要的还是我们首先应该明确这些仅仅是统计数据,并不是绝对数据,明确了这点,我们对待统计数据就不会那么执着了。我们经常看到“可能”、“或许”、“也许”、“大概”、“大约”之类的字眼,这些字眼都是在说明一件事有发生的可能性,也有不发生的可能性,它没有具体指出发生的概率有多少,但是我们往往(“往往”这个字眼也是一种表示可能性的词)会直接无视这些字眼而当成非此即彼的事件(数据)来看,然后借题发挥。
我们写文章时,为了自己的目的,同样在扭曲他人的数据(结论),不管那个数据是对的还是错的。这很大程度上是为了可读性,用冷嘲热讽、嬉笑怒骂的语言来包装文章,自然是比正儿八经的要好看,为了追求文字的好看与美感,就要在一定程度上把逻辑放到了一边不理,如果不是说理文,那无伤大雅,不无不可。为了修辞,失去文章的严谨性,比如,大部分文章都会有肯定性的判断语句,诸如“任何”、“永远”、“绝对”、“一定”等,包括严肃的科学文章,如果较真起来,很多都经不起推敲,甚至根本不用推敲就能看出存在其他的可能性,但我们为了令文章写起来更顺手读起来更顺口,为了加强语气,为了强调,不得不这样,比如本文标题。我们去比较两件事物,不会理他们是否在同一水平线上,也就是基数起点同不同,因为我们的目的不在公平比较,而是借此言它。当然,这两个例子只是小事,我们这样说时其实都心照不宣,达成共识了,这只是为了表述方便起见。
作者说,“如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事”,这就是我们常犯的逻辑谬误,偷换概念。统计学中所包含的思维,利用统计学所犯的错误,归根到底就是逻辑。把相关性当成因果性,这是事后归因;小样本得出大结论,这是以偏概全;为了证实自己的观点,刻意用统计方法放大比例,这是诉诸公众谬误,因为大家都这样,所以我是对的。商品广告说统计数据显示自己的产品在某一权威群体里的使用率很高,言下之意是他们的产品是好的,这是诉诸权威谬误;等等。基本上每一个统计陷阱就是一个逻辑谬误,学会统计学,就是学会怎么说理。
任何事最怕的就是走向极端,看了后对一切统计数字不再相信,以为看了一本书就成了个统计专家,没成统计专家也成了个分辨真假专家,这无疑是进入了另一种统计陷阱。
“累不累啊,这么严肃干什么”,有人要说了,嗯,我这篇文章白写了。
本文由作者笔名:小小评论家 于 2023-03-26 13:43:16发表在本站,文章来源于网络,内容仅供娱乐参考,不能盲信。
本文链接: http://www.w2mh.com/show/50008.html