首页 > 范文大全 > 正文

拷问大数据 从[海量]到[可用]有多远

开篇:润墨网以专业的文秘视角,为您筛选了一篇拷问大数据 从[海量]到[可用]有多远范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

数据很热,基于数据挖掘的业务方兴未艾,但中国目前处于粗放经营阶段,大量数据尚处于灰色地带。从“海量数据”到“可用数据”,如何才能真正释放大数据的价值? 凯文·凯利来了。

这位被人们亲昵地称为“KK”的互联网思想者,前不久飞抵北京进行学术交流。有意思的是,KK随身携带一个小型传感器,据说能随时随地搜集信息,包括他的地理位置、体温、心跳、血压等,然后传到他的笔记本上,再由笔记本传到云上。

在这个信息爆炸的大数据时代,一个人的所有行为和轨迹都能被跟踪、记录、存储、分析,在西方世界,它有一个非常成熟的名字,翻译成中文是“量化你自己”。

当然,这是非常高级的数据研究和应用。“除了上帝,都必须用数据来说话”。刚刚出版面世的《大数据》作者徐子沛旅美多年,也是信息学方面的专家。

在庞大和复杂的数据运转中,几乎所有的行业都与数据沾上了关系,互联网亦如此。据悉,一分钟内,Twitter上新发的数据量超过10万,Facebook上的浏览量超过600万……

目前在中国,大数据很热,就像夏天徘徊在35度左右的高温。不可否认,大数据的爆发正在改变企业的传统商业模式。尤其在互联网领域,基于数据挖掘的业务方兴未艾,第三方数据开发的基础建设平台异军突起,也吸引了不少资金竞相猎食此类公司。

凯鹏华盈创投基金(KPCB)主管合伙人周炜一直在寻找创新型的互联网广告公司,在“钟情”秒针之前,周炜寻觅了两个月。“秒针做得比较纯粹,有独到之处。绝大多数互联网广告公司其实没有太多技术含量,虽然大家都在做精准的数据挖掘,但是没有太多实际的东西。”技术出身的周炜说。

而IDG资本也早已布局。去年夏天,IDG资本和名力中国成长基金高调投资百分点科技720万美元。“互联网信息爆炸会带来有关数据处理、数据分析挖掘等领域新的发展机会,同时,也看好电子商务延伸产业链条、移动互联网以及如八百客公司那样面向中小企业提供在线软件和信息服务的模式。”IDG资本合伙人、副总裁李丰认为。

数据挖掘公司真的是投资人眼中的富矿?“大数据”似乎看上去很美,但在从“海量数据”到“可用数据”的嬗变中,还需解决怎样的难题冲突?关键是,处于粗放经营的中国企业,如何真正释放数据价值,如何真正由数据转化为效能?

“大数据”伪命题?

数据不准确、取数难、维护难

大数据(Big Data),已经是炙手可热的流行语。

世界经济论坛去年报告,认定社交大数据为新财富,价值堪比石油。

以下是一则典型的在大数据“富矿”中掘金的财富故事:华尔街“德温特资本市场”公司CEO霍廷利用电脑程序分析全球3.4亿微博账户留言,进而判断民众情绪,并依据分析结果决定如何处理手中数以百万美元计的股票,原则很简单:如果所有人似乎都高兴,买入;如果大家的焦虑情绪上升,抛售。这招收效显著,霍廷的公司今年第一季度获得7%的收益率。

在美国,一些社交网站产生的数据不仅为金融机构作出决策提供线索,同时也为总统竞选团队了解选民和卫生机构分析疾病传播状况提供支持。谷歌公司与美国疾病控制和预防中心等机构合作,依据网民搜索内容分析全球范围内流感等病疫传播情况。

似乎,“大数据”时代已经到来。

根据市场研究机构IDC的研究结果显示,2011年创造的信息数量达到1800EB,并且还在以每年60%的速度高速增长,到2020年,全球每年产生的数字信息将达到35ZB。而其中更多的数据增长来自非结构化数据(每个ZB=1024EB=10万亿GB)。

超大量的数据,到底多大才算大呢?徐子沛对此有个形象的比喻:我们一般认为按π为单位的数据就是大数据,π下面的单位是GB,一部电影大约一个GB,一π就等于1024个GB,也就是说,一千多部电影那就算大数据了。再比如,美国国会图书馆是比较大的图书馆,它所有的印刷品如果都输入电脑的话,也才是几十个π。

但并非大数据就有价值。“在地球任意地方捡起一块石头,都可以验出铁元素。但是,说世界遍地都是铁矿一定是胡扯。只有石头中铁含量超过一定比例,而石头数量又达到相当规模,这堆石头才能称为铁矿,人们才会对它产生投资开采的兴趣。” 知名IT评论人,曾任雅虎中国总经理的谢文如此点评“数据大”与“大数据”的区别和价值。

中国的大数据领域到底有多少活跃迹象?

在谢文看来,当下该领域的商业前景有被过分夸大的嫌疑。

“目前尽管一些公司里有些专家在做数据整合与分析,也有一些专门从事数据发掘的公司、工具和专业服务,但总的看起来,数据收集、整理、挖掘所需的成本与产生的效益相比,性价比不高,吸引力不大。”他认为,现在国内数据挖掘行业的尴尬在于,“就像前面说到的贫铁矿一样,含金量不高的数据无论规模多大,挖掘多深,也是形同鸡肋,食之无味,弃之可惜”。

一方面是热闹的有关大数据价值的研讨会一场接一场,各类公司对外宣布进军大数据领域的决心,这里也是投资人最活跃的领域,是技术和服务供应商最热心的话题。

另一方面置身其中的业者很苦恼,为什么大数据只打雷不下雨?“不是没有业务需求,而是需求还是不可实现的!”支付宝首席商业智能官车品觉认为,搞数据的人最苦恼的是数据不准确、取数难、维护难。

在他看来,BI(Business Intelligence,商业智能BI)的首要任务是用好数据科学决策。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具,包括搭建数据仓库、数据分析、数据挖掘等。“小公司、小团队还好;规模大了,数据仓库治理是个大难题。”他认为,现在的BI离业务远了点,若是能和产品经理结合到一起就更为强大,但苦恼的是,“现在一般产品经理的数据分析做得太差,往往是拍脑袋做决策”。

徐子沛对此也颇有感触。国内已有各种数据库的基础比较薄弱,由于数据作假、数据泡沫等现象,很多数据的真实性、有效性有待考验。