首页 > 范文大全 > 正文

数据的征服

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据的征服范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

农业社会人们以土地为核心资源,工业时代转为能源,信息社会则将变更为数据。谁掌握数据,以及数据分析方法,谁就将在这个大数据时代胜出,无论是商业组织,还是国家文明。

谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索“流感”两个字)。近日,这个工具发出警告,全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态。

这个工具工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。谷歌多次把测试结果与美国疾病控制和预防中心的报告做比对,发现两者结论存在很大相关性。

但它比线下收集的报告强在“时效性”上,因为患者只要一旦觉察有流感症状,在搜索和去医院就诊这两件事上,前者通常是他首先会去做的。就医很麻烦而且价格不菲,如果能通过搜索来寻找到一些自我救助的方案,人们就会第一时间使用搜索引擎。故而,还存在一种可能是,医院或官方收集到的病例只能说明一小部分重病患者,轻度患者是不会去医院成为它们的样本的。

这就是一个典型的“大数据”的应用例子,舍恩伯格的这本《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。大数据起源于数据的充裕,舍恩伯格在他的另外一本书《删除》中提到了这些源头:首先,信息的数字化,使得所有信息都可以得到一个完美的副本;其次,存储器越来越廉价,大规模存储这些数字信息成本极低;再次,数据库技术的完善使得这些存储的信息能够被轻易按照一定的条件搜索出来;最后,全球性覆盖,网络是无国界的,A地的数字信息可以让远在天边的B地调用。

当我们掌握有大量的数据后,便可以开始进行所谓“大数据”的操作。大数据在舍恩伯格看来一共具有三个特征:全样而非抽样,效率而非精确,相关而非因果。

第一个特征非常好理解。在过去,由于缺乏获取全体样本的手段,人们发明了“随机调研数据”的方法。理论上,抽取样本越随机,就越能代表整体样本。但问题是获取一个随机样本代价极高,而且很费时。人口调查就是典型一例,一个稍大一点的国家甚至做不到每年都一次人口调查,因为随机调研实在是太耗时耗力了。但有了云计算和数据库以后,获取足够大的样本数据乃至全体数据就变得非常容易了。谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了七成以上的北美搜索市场,而在这些数据中,已经完全没有必要去抽样调查这些数据,数据仓库里所有的记录都在那里躺着等待人们的挖掘和分析。

第二点其实建立在第一点的基础上。过去使用抽样的方法,就需要在具体运算上非常精确,因为所谓“差之毫厘便失之千里”。设想一下,在一个总样本为一亿人口的范围中随机抽取1000人,如果在1000人上的运算出现错误的话,那么放大到一亿中会有多大的偏差。但全样本时,有多少偏差就是多少偏差,不会被放大。诺维格,谷歌人工智能专家,在他的论文中写道:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。精确的计算是以时间消耗为代价的,但在小数据时代,追求精确是为了避免放大的偏差而不得已为之。但在“样本=总体”的大数据时代,“快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多”。

第三个特征则非常有趣。相关性表明变量A和变量B有关,或者说A变量的变化和B变量的变化之间存在一定的正比(或反比)关系。但相关性并不一定是因果关系(A未必是B的因)。亚马逊的推荐算法非常有名,它能够根据消费记录来告诉用户你可能会喜欢什么,这些消费记录有可能是别人的,也有可能是该用户历史上的。但它不能说出你为什么会喜欢的原因。难道大家都喜欢购买A和B,就一定等于你买了A之后就要买B吗?未必,但的确需要承认,相关性很高——或者说,概率很大。

舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B,但却不知道其中的原因。这本书的译者周涛教授则有不同的看法,他认为,“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落”。

在笔者看来,双方讨论的可能不是一回事。合恩伯格在这本书中完全不像他在《删除》一书中表现得那么有人文关怀,这是一本纯商业的书籍,商业本来就是以结果为导向的。但周涛谈论的却和“人工智能”有关。

腾讯公司副总裁吴军在他的《数学之美》中曾经提到,人工智能领域曾经走过一个很大的弯路,即人们总是试图让计算机理解人类的指令——注意,是理解,不是知道。但折腾了很多年发现计算机的理解力实在得比三岁小孩还要弱。最终人工智能放弃了这条途径,而改为数据传输和匹配。举个例子说,你在进行语音输入的时候,事实上计算机完全不知道你在说什么,但不妨碍它能够准确地把你说的话尽可能地用字符表达出来。苹果的Siri是很神奇,但它其实并不懂你的意思,而只是你的语音数据和它的后台数据一次匹配而已。

在可以看到的未来中,可能计算机掌握不了三岁小孩的理解力,计算机和人类之间的象棋比赛,一个在思考,一个在做数据匹配,两者虽然都在下棋,路径却全然不同。

大数据时代是信息社会运作的必然结果,而借由它,人类的信息社会更上一个台阶。农业社会人们以土地为核心资源,工业时代转为能源,信息社会则将变更为数据。谁掌握数据,以及数据分析方法,谁就将在这个大数据时代胜出,无论是商业组织,还是国家文明。