大数据期间 统计学依然是数据说明魂灵语言&工具

来源:互联网 / 作者:SKY / 2016-12-07 19:32 / 点击:
在数据“爆炸”的期间,大数据经常被寄予厚望。到底,什么样的数据才算大数据,奈何才气用好大数据,传完好计学尚有效武之地吗?清华大学统计学研究中心前不久成

清华大学传授:大数据期间 统计学依然是数据说明魂灵

数据“爆炸”的期间,大数据经常被寄予厚望。到底,什么样的数据才算大数据,奈何才气用好大数据,传完好计学尚有效武之地吗?清华大学统计学研究中心前不久创立,闻名统计学家、哈佛大学终身传授刘军接受主任。日前,刘军做客人民日报、人民网《文化讲坛》,分享他的思索。

让大数据区别于数据的,是其海量蕴蓄、高增添率和多样性

什么是数据?数据(data)在拉丁文里是“已知”的意思,在英文中的一个表明是“一组究竟的荟萃,从中可以说明出结论”。笼统地说,往往用某种载体记录下来的、能反应天然界和人类社会某种信息的,就可称之为数据。昔人“结绳记事”,打告终的绳子就是数据。步入当代社会,信息的种类和数目越来越富厚,载体也越来越多。数字是数据,笔墨是数据,图像、音频、视频等都是数据。

什么是大数据呢?量的增多,是人们对大数据的第一个熟悉。跟着科技成长,各个规模的数据量都在迅猛增添。有研究发明,连年来,数字数据的数目每3年多就会翻一番。大数据区别于数据,还在于数据的多样性。正如高德纳咨询公司研究陈诉指出的,数据的爆炸是三维的、立体的。所谓的三维,除了指数据量快速增大外,还指数据增添速率的加速,以及数据的多样性,即数据的来历、种类不绝增进。从数据到大数据,不只是量的蕴蓄,更是质的奔腾。海量的、差异来历、差异情势、包括差异信息的数据可以轻易地被整合、说明,本来孤独的数据变得相互联通。这使得人们通过数据说明,能发明小数据期间很难发明的新常识,缔造新的代价。

通过数据来研究纪律、发明纪律,贯串了人类社会成长的始终。人类科学成长史上的不少前进都和数据收罗说明直接相干,譬喻当代医学风行病学的初步。伦敦1854年产生了大局限的霍乱,很长时刻没有步伐节制。一位医师用标点舆图的要领研究了内地水井漫衍和霍乱患者漫衍之间的相关,发明有一口水井周围,霍乱染病率明明较高,借此找到了霍乱暴发的缘故起因:一口被污染的水井。封锁这口水井之后,霍乱的发病率明明降落。这种要领,充拭魅展示了数据的力气。

本质上说,很多科学勾当都是数据发掘,不是从预先设定好的理论可能道理出发,通过演绎来研究题目,而是从数据自己出发通过归纳来总结纪律。近当代以来,跟着我们面对的题目变得越来越伟大,通过演绎的方法来研究题目经常变得很坚苦。这就使得数据归纳的要领变得越来越重要,数据的重要性也加倍凸显出来。

大数据长短竞争性资源,有助于当局科学决定、商家精准营销

大数据期间,数据的重要浸染越发凸显,很多国度都把大数据晋升到国度计谋的高度。

当局公道操作大数据,引导决定的将是基于实证的究竟,当局会更有预见性、越发认真、越发开放。中国古代治国就已经有重数据的头脑,如商鞅提出,“强国知十三数……欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”。大数据期间,循“数”治国将越发有用。小数据期间,当局做决定更多依凭履历和局部数据,不免头痛医头、脚痛医脚。好比,交通堵塞就多修路。大数据期间,当局做决定可以或许从粗放型转向集约型。路堵了,操作大数据说明,可以得知哪一时刻、哪一地段最轻易堵,或在这一地段四面多修路,或提前预警引导住民公道布置出行,实现对交通流的最佳设置和节制,改进交通。

对付商家来说,大数据使精准营销成为也许。一个风趣的故事,是沃尔玛超市的“啤酒、尿布”征象。沃尔玛超市说明贩卖数据时发明,顾主斲丧单上和尿布一路呈现次数最多的商品,竟然是啤酒。跟踪观测后发明,有不少年青爸爸会在买尿布时,趁便买些啤酒喝。沃尔玛发明这一纪律后,搭配促销啤酒、尿布,销量大幅增进。大数据期间,每小我私人城市“自发地”提供数据。我们的各类举动,如点击网页、行使手机、刷卡斲丧、寓目电视、坐地铁出行、驾驶汽车,城市天生数据并被记录下来,我们的性别、职业、兴趣、斲丧手段等信息,城市被商家从中发掘出来,以说明商机。

大数据也将使小我私人受益。从生物学、医学上讲,早年世物学家只是通过对单个或几个基因的操控来调查其对生物体的影响,很难发明整体的关联。此刻因为技能的成长,可以说明许多,如遗传信息、全体基因的表达量信息、卵白质族谱信息、全基因组甲基化信息、表观遗传信息等。同时尚有小我私人康健指标、病历、药物回响等数据。假如然能告竣生物学上多维多向数据的有机融合,就可以或许把小我私人完备地描写出来,从而实现精准医疗的目标。

大数据期间,考核数据的真实性也有了更有用的本领。大数据的特性之一是多样性,差异来历、差异维度的数据之间存在必然的关联度,可以交错验证。譬喻,某地的家产产值虚报了一倍,但用电量和能耗却没有到达响应的局限。这就是数据非常,很轻易被体系辨认出来。发明非常后,相干部分再举办复核,就能更有针对性地防备、冲击数据造假。

数据是一种资源,但数据又跟煤、石油等物质性资源纷歧样。物质性资源不行再生,你用多了,别人就用少了,因而很难共享。数据可以一再行使、不绝发生新的代价。大数据资源的行使长短恶性竞争的,共享的条件下,更可以或许制造双赢。从另一个角度来说,数据假如不被融合、接洽在一路,也不能称之为大数据。

大数据不能被直接拿来行使,统计学依然是数据说明的魂灵

此刻社会上有一种风行的说法,以为在大数据期间,“样本=全体”,人们获得的不是抽样数据而是全数据,因而只必要简朴地数一数就可以下结论了,伟大的统计学要领可以不再必要了。

在我看来,这种概念很是错误。起首,大数据奉告信息但不表明信息。打个例如说,大数据是“原油”而不是“汽油”,不能被直接拿来行使。就像股票市场,纵然把全部的数据都发布出来,不懂的人依然不知道数据代表的信息。大数据期间,统计学依然是数据说明的魂灵。正如加州大学伯克利分校迈克尔·乔丹传授指出的,“没有体系的数据科学作为指导的大数据研究,就犹如倒霉用工程科学的常识来制作桥梁,许多桥梁也许会坍塌,并带来严峻的效果。”

阅读延展

1
3