首页 > 范文大全 > 正文

对“伪大数据”说不

开篇:润墨网以专业的文秘视角,为您筛选了一篇对“伪大数据”说不范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

我们生活在一个任何人都无法摆脱的大数据时代。数据越多,人们做出的分析就越多――呈现指数增长;人们分析得越多,制造出的烟雾弹也就越多。因此,保持清醒的头脑就变得非常重要。

大数据是高科技时代的流行语,它大约出现在2010年。它表示海量的数据,仅此而已。麦肯锡全球研究院谈起“大数据”时说道:“这个概念指的是那些规模巨大到通常的数据处理软件都无法捕捉、存储、管理和分析的数据集。”根据2011 年麦肯锡发表的第一份“大数据”报告,这些研究者所认为的“大”是指每家企业所拥有的数据达到几十个乃至上千太字节(Terabyte)。

我们之所以关心这个问题,不是因为数据越来越多,而是因为对数据的分析越来越多了。我们不得不投入更多的人手以便能更多、更快地分析数据。真正驱动我们这样做的不是数据的数量而是数据的价值。

自上世纪九十年代初,任何人都可以从雅虎财经、亿创理财(E*Trade)等网站上,下载到股票、共同基金以及其他金融产品的运作情况。有时,甚至连公司也会参与其中,使得一些专有的数据公开化。2006 年,美国最大的在线DVD 租赁商奈飞公司(Netflix)统计并了1 亿部电影的分类等级,并征募科学家来改进预测算法。玩家们通过研究统计数字来获得竞争优势,从而将“梦幻体育”(Fantasy Sports)这个游戏推到了一个新的高度。那些过去印刷在纸版书的数据,如今以电子表格的形式在互联网上迅速传播。数据是免费的,又很容易获得,这必然会产生更多的数据分析。

盖茨基金会的失误

比尔・盖茨以自己和妻子的名义成立了“比尔&梅琳达・盖茨基金会”(Bill & Melinda Gates Foundation),该基金会在许多领域进行了大胆投资。它涉足的领域包括在发展中国家进行疟疾预防、在美国进行中学改革,以及对艾滋病(HIV/AIDS)的研究。盖茨基金会因依靠数据来做出明智的决定,从而赢得了良好的声誉。

但这并不意味着他们不会犯错。盖茨在千禧年开始之际,大力支持小型学校运动,他在全美范围内选出了一些学校,并往这些学校投入了上亿美元。证据A是当时的一项统计发现:在全美表现最好的学校中,小型学校所占的比例不均衡。例如,在宾夕法尼亚州,按照五年级的阅读成绩评出的前50所学校中,12%是小型学校。要是学生的成绩跟学校的规模无关,那么规模大的学校在这50所名校中所占的比例应该是小型学校的四倍。因此,学校规模被认为是影响教学质量的重要因素――每个年级最多不能超过100名学生。而盖茨基金会设计的一套改造方案,就是将大型学校拆分成更小、更高效的小型学校。

举例来说,2003年新学年伊始,在华盛顿的芒特莱克泰勒斯高中(Mountlake Terrace High School)读书的1800名学生发现,自己的学校被分成了五所小型学校,学校的名字分别叫做“发现学校”、“改革学校”、“复兴学校”等。不过,校址没有改变,还是在以前的大楼里。盖茨基金会教育处执行主任汤姆・ 范德・ 阿尔克(Tom Vander Ark)解释说:“大多数穷人家的孩子,不得不进规模大的学校念书,在那里没人认识他们,他们被甩进了一条难以出头的死路……小型学校只不过营造了一个(比大型学校)更好的成长环境。在那里,比较容易形成积极的氛围,产生较高的期望值,也更容易优化课程设置,改进教学质量。”

十年以后,盖茨基金会却发生了彻底的转变,它不再将学校的规模视为解决学生成绩问题的唯一方法,而开始致力于设计富有新意的课程以及提升教学质量。盖茨基金会对学校重组前后的效果进行了细致的调查研究,结果发现,重组后的学校平均成绩没有变得更好,相反,某些个例还变得更差了。

统计学家霍华德・ 魏讷(Howard W a i n e r)在美国教育考试服务中心(Educational Testing Services)度过了最好的职业生涯。魏讷曾抱怨道:“这数百万美元的错误,本来是可以避免的。”在上面提到的对宾夕法尼亚州的学校进行的同一分析中,魏讷指出,虽然小型学校在前50所学校中占了12%的份额,但同时要看到,在后50所学校中,有18%是小型学校。简单来说,小型学校在这个分布的两端所占的比例都偏高。不管强调哪一部分数据,分析师们都会得出完全相反的结论。在对飞机晚点的研究中,我们见过类似的情况。问题的关键不在于多少数据被分析,而是被如何分析。

数据分析中最重要的品质―数字直觉

盖茨基金会的故事证明了另外一点:数据分析是一件棘手的事,无论是权威专家还是经验丰富的行家,都不能担保不出错。不管一个人的脑袋瓜多么灵光,总会有一定的犯错范围。这是因为,没有人能够掌握所有信息。“那是在顶尖期刊上发表的”、“别瞎怀疑了,登在这本期刊上的文章难道会有错?!”这样的话经常拿来当做堵住别人嘴巴的借口。生活在大数据时代,只有傻瓜才会采取这种态度。你听说过很多研究,试图在某种疾病与某种基因之间建立联系,比如,帕金森症和高血压。可是,你知道吗?经过同行评审、并得到同行认可的遗传学关联性研究成果,只有30%能被后续的研究证实,其余的都是假阳性结果(false-positive result)。那些声称是原创性的研究成果,还没来得及出版勘误表,就已经被了。

大数据在因果关系这个问题上,实际上没什么好讲的。不过,存在一种普遍的误解,以为海量的数据流能够将隐藏着的“因果关系”冲出地面。请想一下点击率吧,网络营销人员借助点击追踪网络用户,来以此证明网络营销是成功的。顾客点击了一个网页横幅广告或者搜索广告,然后下了订单,这不就足以证明网络营销成功了吗?还需要什么更有力的证据吗?现实情况远非如此简单明了。比方说,我在网上点了一个三星盖世(Galaxy)的横幅广告,随后将这款手机放进了购物车。一个星期后,我观看了他们抨击苹果的广告,觉得很过瘾,于是,我回到三星的网店完成了这笔交易。分析人员在仔细分析网络日志时,不但会漏掉促使我行动的真实原因,而且会犯假阳性错误,将横幅广告跟此次购买行为捆绑在了一起。因为网络营销人员能看到的只有这些。这些小问题在网络分析员的生活中稀松平常。

大数据不仅意味着有更多好的分析,也意味着会有更多坏的分析。要知道,即便是专家和技术大牛也有掉链子的时候。如果一些不好的数据被心怀叵测的可疑人员添油加醋地利用,事情会变得更糟糕;不过,即便是动机纯洁的分析人员稍有不慎也会上当受骗。在这个充满数据的世界中,消费者得有一副火眼金睛才行啊!

大数据是真实的,而其影响更是广泛的。至少,我们每个人都是数据分析的消费者。因此,我们必须学会成为一个聪明的消费者。我们需要具备的是一种数字直觉。

数字直觉是我在招聘数据分析员时最为看重的一种品质。它能将真正的天才从“还不错”中区别开来。我希望在应聘者身上发现三样东西:一个是数字直觉,其他两样分别是技术能力和商业思维。有些人可能在编程方面无人能敌,但却没有一点数字直觉;有些人可能是个讲故事的高手,能将一个个的情节串联起来,但是却没有任何数字直觉。数字直觉是第三维度。

欢迎来到大数据时代,不过,要处处留神才是!