开篇:润墨网以专业的文秘视角,为您筛选了一篇大数据 大智慧范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
一分钟之内,微博“推特”上新发的数据量超过10万,社交网络“脸谱”的浏览量超过600万……这些庞大数字,意味着什么?事实上,一种被称为“大数据”(Big Data)时代的全新理念正在悄然来袭,其价值堪比石油和黄金。它不仅是IT领域的技术变革,而且不断冲击着政治、商业、社会、科技等诸多领域,几乎已经到了“数据就是业务本身”的程度。在这其中,还蕴藏着一个更为重要的趋势,那就是数据的社会化(Socialization of Data)。
自从信息化时代以来,就在不断产生大量数据。随着云计算技术的快速普及,加之物联网、移动互联网应用的大规模飙升,人类社会正在步入一个被互联网和通讯技术引爆的大数据时代。之前20余年的积累,让不断产生的海量数据正在成为虚拟世界取之不尽的能源,而它们还远未被开发。
据市场研究公司IDC统计,未来10年里,预计数字信息总量将在2009年到2020年期间增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。与此同时,单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。一项由Informatica公司赞助的UnisphereResearch调查发现,百分之九十的企业的数据量在迅速上涨,其中16%的企业每年的增长率达到50%或更高。不少企业已经感受到失控数据增长对绩效造成的冲击,87%的受访者将企业的应用程序性能问题归咎于不断增长的数据量。
随着互联网技术的不断发展,“数据本身即是资产”这一点在业界已经形成共识。美国政府更是《大数据研究和发展倡议》,把大数据上升为国家意志,拟投资两亿美元,增强从大量复杂数据集合中萃取信息的能力。
最早提出大数据时代已经到来的全球咨询机构麦肯锡公司认为,数据已经渗透到每个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
大数据,重新定义下一场变革
关于什么是“大数据”,目前尚没有标准定义。维基百科上有人对大数据做了如下描述:数据增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。
通俗地说,大数据其实是一种在互联网时代或信息时代的现象。在这样的时代,任何一个企业,尤其是大型企业和互联网企业,会在经营过程中产生大量的、各种各样的数据。这些数据有几个典型特征:数据量大、数据类型复杂、处理速度要快。所谓数据量大,是指数据不再以几个GB和几个TB为单位来衡量,而是以PB(1000个T)、EB(一百万个T)或ZB(10亿个T)为计量单位;数量类型复杂,是因为它的来源复杂,从结构化数据到非结构化数据;处理速度要快,则是指数据的分析和使用需要在极短时间内完成,甚至实时使用。这导致现有的数据仓库和商业智能等数据处理和分析技术无法应对,但是企业要对它进行快速处理与分析的需求又很大,因此,大数据才会变得这样火。
云时代到来、移动终端普及使得数据创造的主体由企业逐渐转向个体,而个体所产生的绝大部分数据为图片、文档、视频等非结构化数据。信息化技术的普及使得企业更多的办公流程通过网络得以实现,由此产生的数据也以非结构化数据为主。预计到2012年,非结构化数据将达到互联网整个数据量的75%以上。用于提取智慧的“大数据”,往往是这些非结构化数据。
全球技术研究和咨询公司Gartner将大数据技术列入2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一,而其他领域的研究,如云计算、下一代分析、内存计算等也都与大数据的研究相辅相成。Gartner在其新兴技术成熟度曲线中将大数据视为转型技术,这意味着大数据技术将在未来3~5年内进入主流。
不过,也有专家表达了不同看法,认为大数据并不是新概念,而是在物理学、生物学等科学领域早已存在的理论,只不过此前没有有效的手段获取大数据。Web2.0时代,大数据应该以人为核心,以人的关系为基础进行信息生产、交换,从而产生巨大的信息爆炸。同时,大数据将产生比现在更有价值的商业模式,是不能用现有技术进行处理的。
那么,大数据到底能给企业带来什么价值呢?本质上说,大数据本身没有太多价值,基于大数据的处理和分析,才能为企业带来巨大的增值价值。
大数据里面包含企业运营的各种信息,如果能对它们进行及时、有效、充分地整理和分析,才可以迅速帮助企业进行业务决策,响应客户需求,提升竞争力。几个月前,刚刚以大数据概念在纳斯达克上市的美国公司Splunk,可以让我们很容易理解这一点。
Splunk提供一款可运行于各种平台的IT数据、日志分析软件,可以让IT运维人员以类似谷歌搜索关键词的方式,快速搜索并查看任何IT设备运行过程中产生的信息。一个简单的场景是,当IT设备出现异常时,IT运维人员只需要搜索关键词“Error”,系统便会列出包含“Error”的机器运行日志,并以非常好的图形化方式展现出来。IT运维人员可以据此判断出异常出现的具体时间、具体设备,并分析故障原因。
显然,与以前凭借经验进行故障判断相比,数据分析提供了更精准的信息,而这便是大数据的魅力所在。那么,企业该如何抓住大数据带来的机遇呢?专家认为,随着大数据时代的到来,企业应该在内部培养三种能力,包括整合企业数据的能力,探索数据背后价值和制定精确行动纲领的能力,以及进行精确快速实时行动的能力。“如果企业在信息治理上培养出这三种能力,对未来大数据时代的驾驭能力会增强,而面临的挑战则会降到最低。”
IT巨头抢滩布局
Gartner曾经有报告指出,大多数数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新渠道和技术的不断涌现和应用。对于大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。还有就是把计算机聚合成服务器集群越来越简单。这三大因素的结合便催生了大数据。
作为一家智能分析解决方案厂商,一直专注于商业智能技术的美国Teradata公司主要为企业和政府机构做数据整合、分析,探索、挖掘数据背后的价值。最近两年,Teradata通过收购,将业务从结构化数据延伸到非结构化、大数据领域。2011年,Teradata先后收购了云计算软件公司Aprimo及高级分析和管理各种非结构化数据领域的Aster Data公司。2012年5月8日,Aprimo收购了基于云的数字营销欧洲领导厂商eCircle,进一步加强并拓展了Teradata大数据市场业务。
事实上,Teradata只是大数据领域的一家企业而已,与Teradata一样看好大数据的还有IBM、甲骨文、惠普、EMC、微软等传统IT厂商,他们也在通过自主研发或者收购的方式进入大数据领域。
几年前甲骨文率先在全球推出了应对大数据的数据库软硬一体机Exadata,因为其在提升效率、简化管理、最大限度挖掘数据商业价值上有明显效果,赢得了用户市场的积极反馈。2012年12月,IBM也在全球其针对大数据的软硬一体机PureData。最近几年IBM与甲骨文在市场上的竞争白热化,在软硬一体的大数据机推出速度上,IBM显然比甲骨文慢了一程,但是IBM对此并不气馁:“正因为我们的产品晚出来,所以我们在架构上、在技术上能够避甲骨文数据库一体机之短,能够设计出更优的大数据一体机。”由于大数据一体机,IBM与甲骨文之争再燃战火。
IBM在过去五年里,已经斥资超过140亿美元进行了20多笔与数据分析相关的收购交易。甲骨文这家以结构化数据库起家的IT公司,则推出了大数据机及智能分析解决方案。2011年8月,惠普以100亿美元收购英国软件公司Autonomy,其实也是为了扩大商业分析软件的市场份额。Autonomy通过独有的算法可以提取出非结构化信息中的含义。
应该说,目前全球大数据技术的发展还处于起步阶段,针对大数据无论是软件技术还是硬件技术或是软硬一体的技术,国外企业的投入和重视都远比中国企业要多得多。与国外大数据的热火朝天相比,国内企业似乎仍在观望。
“国内IT尤其是软件企业在布局大数据方面,已经落后。”有专家称,这主要是国内企业在数据库、数据仓库、商业智能等领域基础薄弱。不过,国内企业在这方面仍有机会,但需要找准行业与切入点。对于国内可能出现大数据公司的领域,业界比较看好互联网公司,例如百度、阿里巴巴、腾讯等,显然,这样的互联网公司比传统的IT和软件公司更有机会。
实际上,作为中国最大的电子商务公司,阿里巴巴已经在利用大数据技术提供具体服务,包括阿里信用贷款与淘宝数据魔方。以阿里信用贷款为例,阿里巴巴通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。据透露,阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。淘宝数据魔方则是淘宝平台上的大数据应用方案,通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此做出经营决策。
此外,据悉曙光也已推出针对大数据的存储解决方案,曙光的HPC(高性能计算机)在中国的HPC TOP500的排行中继续蝉联榜首。曙光希望能够在计算架构和软硬垂直整合方面有更多创新与突破。
大数据VS云计算
现在,云计算和大数据无疑都是很火的概念,业内对其的探讨也愈演愈烈,那么云计算与大数据的不期而遇又产生了怎样的联系呢?
有人说云计算和大数据是双胞胎,两个是不同的个体,互相依赖又相辅相成,也有人说大数据是来搅局的。对此,VMware全球高级副总裁范承工认为,在过去三年中,大数据的发展从无到有,三年前可能还没有人说这个词,现在已经如火如荼。然而,现在除了数据本身发生了改变,云计算也使数据变得更加分散,在这样的趋势下,传统数据库对于海量数据的需求、快的需求、开发者数据多样化的需求难以满足,使各种各样的解决方案大行其道。
EMC大数据和存储专家、EMC资深产品经理李君鹏则认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。
对于大数据给云计算带来的影响,Teradata技术总监Stephen Brobst表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,私有云架构确实有影响:通过私有云可以巩固数据集市,减少利用率不足的问题;可以通过灵敏的方式将数据集成,实现业务价值。
其实大数据与云计算的不同之处主要在于应用的不同,表现在两个方面:首先在概念上,两者有所不同,云计算改变了IT,而大数据则改变了业务。大数据必须有云作为基础架构,才能得以顺畅运营。其次,大数据和云计算的目标受众不同,云计算是卖给CIO的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。
也就是说,如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。
是机遇,更是挑战
目前,对数据采集主要从源头上进行控制,挡住一些不具战略意义、没有价值的数据。但也造成数据收集工作没有数据分析系统,基本是不经分析过滤全扔进数据库,一来数据库容量有限,二来信息芜杂,有效样本信息获得难度较高。
可以说,大数据产业链有很多环节,未来都可能面临较大发展机遇。如信息数据的产生环节,公众每天使用的互联网和无线通信,即时通信、手机、短信、彩信甚至是每一个互联网点击,都是数据的产生,企业依靠这些数据,可以进行自我分析提升效率,也可以出售数据给专业分析机构。同样,信息数据的存储和采集整理环节也不容忽视。而信息数据的分析产出作为整个大数据产业链的最末端,可能将成为具有技术含量和产业附加值的子行业。
目前在中国,“大数据”尚未直接以专有名词被政府提出。不过,工业和信息化部的物联网“十二五”规划中,把信息处理技术作为四项关键技术创新工程之一提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。
相关专家认为,国内要想发展大数据需重视以下几个问题:
大数据的研究和发展工作可由国家层面的部门主导,成立一支核心研究团队,提供合适的研究环境。目前我国纯商业的数据处理尚未形成行业;积极应对大数据挑战。研究大数据不单是技术层面的问题,管理层面、互信机制的建立都要跟上,要在顶层设计指导下分重点解决;找准切入点。在信息时代,如何给庞大的数据“消肿”,如何帮价值密度低的数据库“沥掉水分”,是研究关键。与此同时,数据安全和保密也是不容忽视的核心问题,必须重视大数据研究过程中的安全性。
时至今日,我们尚无法确定万物是否皆有数据,但是在云计算时代,人类至少已经推开了这样一扇大门:通过对海量大数据的高效分析获得商业以及社会价值。只有以开放胸怀拥抱大数据,以理性态度思考大数据,保持持续变革的动力,并从战略到战术层面开始自我进化,才能更加适应这个瞬息万变的新时代。