你是怎样“被平均”的?细数统计数据中的那些坑大数据应用

来源:互联网 / 作者:SKY / 2019-06-11 15:10 / 点击:
统计数据(statistics)就是用数字表达出来的证据。这样的证据可能看起来非常动人,因为数字让证据显得非常有科学性,非常精确,似乎它就代表了“事实”。但是,统

我们使用统计数据(通常以不合适的方式)来揭示战争伤亡人数的增加或减少,提醒公众注意发病率的变化,测量一种新产品的销量,判断某一只股票的赚钱能力,决定下一张牌是A的概率,衡量不同大学的毕业率,记录不同年龄段的人们性生活的频率,为很多其他问题提供资源和信息。

统计数据(statistics)就是用数字表达出来的证据。这样的证据可能看起来非常动人,因为数字让证据显得非常有科学性,非常精确,似乎它就代表了“事实”。但是,统计数据能,而且经常会,撒谎!它们并不必然就能证明它们想要证明的一切。

两种不同的提供数据的方式有可能会产生欺骗性:

你是怎样“被平均”的?细数统计数据中的那些坑

▲最喜欢的食物

你是怎样“被平均”的?细数统计数据中的那些坑

▲最喜欢的食物

小贴士:统计数据可能而且经常骗人。它们并不必然就能证明表面上想要证明的一切。

作为一个会思考和判断的人,你应该努力辨别出错误的统计数据式的论证。在几个较短的段落中,我们无法向你全面展示人们用“统计数据帮忙撒谎”的所有不同方法。但是,本文我们将为你提供一些基本策略,这样你就可以用来发现这些骗人的小伎俩。

同时,它还通过展示许多作者错误使用统计数字来当证据的最常见的方法,提醒你注意数据论证中存在的缺陷。

关键问题:数据有没有欺骗性?

01 不知来历和带有偏见的数据

最近的一个新闻标题:40%的大学生饱受抑郁症的折磨!

在你情绪低落的时候你该不该过分担心呢?你又怎么知道自己可以相信这样的统计数字?

任何统计数字都要求发生在某地的某些事件能被界定并准确识别出来,这常常是一项非常艰巨的任务。因此,要找出欺骗性的数据,第一个策略就是尽量找到足够多的关于这些数据是如何采集的信息。

我们能不能准确地知道美国到底有多少人在报税单上做过手脚,多少人有过婚前性行为,多少人开车打手机,或多少人使用违禁药品?如果你想象一下做这些统计的细枝末节,那么我们怀疑你的答案肯定会是“不太可能”。

为什么?因为要为特定的目的得到精确的数据,你常常会遇到各种各样的拦路虎和绊脚石,其中包括关键词语的模棱两可,识别相关人员或事件的种种困难,人们不愿意提供真实的信息,不能报告各种事件,还有观察事件时存在的种种身体上的障碍等。

因此,统计数据的形式往往只能是基于事实做出的一些估计。这些估计有时候很有用,但它们也可能有欺骗性。记住总要问一问,“作者是怎样得出这个估计的?”得到的细节越多越好。

不知来历的统计数字最常见的一个用处就是用大量的数字给别人加深印象或让别人肃然起敬,这些呈现出来的数字的精确性常常会让人怀疑。比如说,大量的数字可能被用来提醒公众注意日渐增长的身体失调或精神失常的发生率,例如癌症、饮食异常或幼年孤僻症等。

如果我们能知道这些数据确定的过程是如何得谨慎,我们肯定更会深受这些数据的感染。比如说,一直以来人们都在努力统计大学生抑郁症发病率的准确数字,但是不知来历的数据问题已经成为影响统计的一个主要因素,研究报上来的发病率在10%~40%之间。

所以,本部分一开始提到的那份研究如果让你觉得过度惊慌的话,那你未免显得有些杯弓蛇影。记住:在对这样的数据做出反应之前,我们先要问一问它们是怎么得来的。

你是怎样“被平均”的?细数统计数据中的那些坑

02 令人困惑的平均值

请检查下面的陈述:

快速致富的一个方法就是做一名职业足球队员,2010年国家足球联盟球星的平均收入是180万美元。

在大学里取得好成绩,学生需要付出的努力越来越少了。根据最近一项调查,大学生每周平均花在学习上的时间是12.8小时,和20年前的大学生相比大概只有他们的一半。

两个例子当中都使用了“平均”这个词。但是实际上却有三种不同的方法来测定平均值,而且在大多数情况下,每种方法都会给出不同的数值。

第一种方法是把所有数值相加,然后用总数除以相加的数目。这种方法所得的结果就是平均数(mean)。

第二种方法是将所有数值从高到低排列,然后找到位于最中间的数值,这个中间数值就是中位数(median)。有一半的数值在中位数之上,另一半在中位数下面。

第三种方法是将所有数值排列好,计算每个不同数值出现的次数或每个不同数值范围出现的次数,出现频率最高的数值就叫作众数(mode),这是第三种平均值。

作者谈论的是平均数、中位数还是众数,将会产生很大的区别。

平均值的种类:

平均数:通过把所有数值相加然后用总数除以相加的数目来计算

中位数:通过将所有数值从高到低排列然后找到位于最中间的数值来测定

众数:通过计算不同数值出现的次数然后找出出现频率最高的数值的方法来测定

你是怎样“被平均”的?细数统计数据中的那些坑

第一个例子当中取什么平均值最能说明问题?请考虑一下职业化运动当中大牌球星的收入与那些一般球员的收入对比。最大牌的球星,比如说橄榄球明星四分卫,收入比球队里大部分其他球员要高出很多。

事实上,2010年度薪酬最高的橄榄球运动员岁入超过1 500万美元,而这远远高于平均值。这样高的收入将会急剧拉高平均数,但是对于中位数或众数而言则影响不大。

阅读延展

1
3