首页 > 范文大全 > 正文

海量数据来袭 CIO无须紧张

开篇:润墨网以专业的文秘视角,为您筛选了一篇海量数据来袭 CIO无须紧张范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

网络搜索的结果、社交媒体内容和服务器日志,再加上来自供应链、工业、环境和监视等传感器的数据,这一切都使企业数据日益庞杂。目前,很多企业都淹没在海量数据中不知所措,他们不了解这些数据的真正价值也没有掌握管理、分析数据的IT手段。

围绕数据分析工作,市面上出现了众多相关技术,帮助企业管理和分析多种多样的庞大数据集。在这个高级分析技术的领域,由于IT服务产品的价格持续下降,用户可以用更少的IT预算来获取完善的服务、进行更多的信息分析,解决更复杂的问题。

随着分析技术的飞速发展和商业智能手段的日益高明,cio现在完全可以做到大规模、低成本地分析业务数据。这也意味着,企业可以充分利用一切可利用的机会,获取更高的商业价值。

勇于接受海量数据

大数据是指庞大的数据集,尤其是那些未经组织、管理以适合传统数据仓库的数据集。虽然不是每一家公司都需要掌握处理庞大非结构化数据集的手段,但Verisk Analytics公司的CIO Perry Rotella认为,所有CIO都应该关注大数据分析工具。Verisk公司帮助金融公司评估风险,也帮助保险公司从理赔数据中识破欺诈,它在2010年的营收超过了10亿美元。Verisk公司的业务是“从你事先未知的数据中找到一定的模式和关联。”Rotella表示,企业的IT负责人应持数据越多越好的态度,并勇于接受海量数据。

HMS公司专门帮助客户实施医疗保险和医疗补助计划,同时也为企业控制医疗保健成本,其业务覆盖美国40多个州的卫生和福利计划以及130多个医疗补助管理型医疗保健计划。在2010年,通过避免错误支付,HMS帮助客户追回了18亿美元的成本,省下了数十亿美元的开销。该公司的CIO Cynthia Nustad认为,大数据呈“爆炸式发展”的趋势,“我们在努力获取、跟踪、分析大量资料,包括结构化数据和非结构化数据,尽管有时你可能都不知道自己在数据中到底要寻找什么。”

Hadoop是被谈论最多的大数据技术之一,作为一个开源的分布式数据处理平台,Hadoop最初被用来处理海量网页搜索之类的任务。最近它与另外几种所谓的“NoSQL”技术(包括CouchDB和mONGOdb)大行其道,正以新颖的方式管理大数据。

Hadoop能够处理PB级数据,具体步骤是把海量数据的子集分配给上千台服务器,然后由主调度器核对和整理每一台服务器返回的处理结果。Hadoop既可以用来准备好数据以便分析,本身也可以作为一款分析工具来使用。如果企业没有成千上万台备用服务器,可以向亚马逊等云服务提供商购买服务,根据具体需要访问Hadoop。

Nustad认为Hadoop有助于企业通过分析数据来识破欺诈和浪费现象,或许还可以用于分析多种格式的病人门诊记录。她表示,HMS确实在探究NoSQL技术的用途,但并非用于其庞大的医疗保险和医疗补助理赔数据库,因为这些数据库含有结构化数据,可以用传统的数据仓库技术来处理,而且为了大数据而弃用传统的关系数据库管理方法也不明智。

作为一家比较购物网站,Shopzilla每天积累的数据多达数TB。其CIO Mulkey说:“我们用Hadoop来处理过去用数据仓库来处理的任务,更重要的是,它能让我们做一些以前无法实现的、真正能满足需求的分析工作。”以前,Shopzilla要为数据取样和分类――处理这么多数据,工作量非常大。现在借助Hadoop,Shopzilla就能分析原始数据,跳过中间步骤。

像Rotella和Mulkey这种有Hadoop实践经验的CIO,他们所在的公司甚至会将数据分析服务当做一项业务来出售。

提速

从IT架构改革开始

“分析速度提升将是一个更大的趋势,而大数据技术只是这个趋势当中的一部分。”肯塔基大学的CIO Vince Kellen认为,“我们需要用更高级的技术来分析海量数据,因为我们希望迅速地获得分析结果。所以数据多少不重要,重要的是分析数据的效率。”

虽然几十年来,数据库一直通过缓存那些频繁访问的数据来提高性能,由于从磁盘获取数据在一定程度上是个机械过程,所以速度要比在内存中处理慢很多。现在看来,把庞杂数据全部装入到一台服务器或者多台服务器的内存中要更切实可行,磁盘只用来作备份。

Rotella表示:“现在我可在几秒钟内执行分析任务,而五年前我们需要花整整一个晚上。”他们对庞大数据集进行预测性分析,通常需要经历启动查询、寻找模式、进行调整等环节,然后再启动下一个查询,查询的执行时间对于分析速度影响很大。“原来,我们运行模型比建立模型费时间,而现在建立模型比运行模型更费时间。”

列式数据库服务器把数据库传统的组织方式颠倒过来。查询只访问相关的列,因而为评估几个关键列的应用程序提升了性能。为了提高分析性能,硬件同样很重要。保险和金融服务巨头John Hancock的CIO Allan Hackney已经开始尝试GPU加速的系统。他说:“可视化方面的运算与统计分析方面的运算非常相似,而GPU执行的运算速度比传统的PC和服务器处理器快几百倍。”

开源技术压低成本

从某种程度上说,计算能力的增加得益于内存和存储设备价格的不断下跌,此外有了付费产品之外的选择以及开源软件也迫使厂商降低价格。

Ternent在加入Island One之前是Pentaho开源商业智能公司的技术副总裁,他积极倡导开源技术,“在我看来,开源为公平竞争创造了条件。”

Ternent表示,开源工具一度只适用于基本的报告,而现在,它们提供了最先进的预测分析功能。“现在几乎所有领域都有开源厂商,这意味着谁有胆量用,谁就可以随意使用开源工具。”

HMS的Nustad发现,不断变化的经济因素也在改变着IT架构方面的一些基本选择。比如说,构建数据仓库的一个传统原因是在拥有计算功能的服务器上把数据整合起来。以前计算功能比较稀缺时,CIO会把分析任务从操作系统卸载下来,以免拖累日常任务的性能,现在就没必要这么做了。由于省略了移动数据、格式化以及把数据装入数据仓库的步骤,CIO直接在操作应用上进行分析能更快地获得结果。

不过Hackney表示,虽然现在的趋势正朝着有利于降低管理成本的方向发展,但节省的成本经常被增加的存储容量需求抵消。“这就像在原地跑步。虽然2011年John Hancock的存储成本下降了2%到3%,但存储使用量却增长了20%。”

为员工设计终端界面

对Nustad而言,移动商务是必须的。因为即使出门在外也要查看各种报告,了解公司是否履行了服务级别协议。她还希望让公司的客户可以通过移动设备访问自己数据,帮助他们监控和管理医疗保健开支。“这是一项客户非常喜欢的功能。五年前,客户不会要求提供这项功能,但现在他们对此非常关注。”

对于CIO来说,应对这个趋势的关键不是提供复杂的分析功能,而在于为智能手机、平板电脑和触摸屏设计用户界面。Kellen觉得这问题很容易解决。

但Rotella并不这么认为。“移动计算影响着每个人。使用iPad和其他移动设备办公的人越来越多,这个趋势会让员工使用企业计算资源的方式加速改变。”Rotella说,例如,Verisk开发了一种产品,可以让理赔员在现场访问分析结果,如此一来他们就能估算重置成本。这种方式可以充分利用分析结果,满足那些有需要的人。

技术在迅速变化,这是让CIO最感头疼的事情。Rotella认为,“两年前,我们没有iPad;现在,大家出去都带着iPad。由于移动设备操作系统有很多种,我们要努力了解如何才能最有效地利用自己的开发资源,避免进行重复的开发工作。”

Island One的Ternent表示,由于手机和平板电脑中浏览器的功能越来越强大,为每个移动平台开发原生应用程序的呼声也随之减弱,“如果我只需针对移动设备为基于Web的应用程序更换皮肤,就不一定非要开发定制的应用程序了”。

分析混合型的

社交媒体

随着Facebook、推特等社交媒体遍地开花,越来越多的公司想要分析这些网站的数据。现在,市场上已经出现了新的分析应用软件,包含语言处理、情感分析和网络分析等统计方法,它们已不再属于典型的智能商务“工具包”。

许多社交媒体的分析工具很新颖,常以服务的形式出售。一个突出例子是Radian6,该软件最近被收入囊中。Radian6提供了一个仪表板,根据推特消息、Facebook公共帖子以及博客和讨论板会话上的帖子和留言,可以列出了提到品牌的各种评价。营销部门和客户服务部门买来这类工具后,基本上不需要麻烦IT部门。

不过,肯塔基州大学的Kellen表示,对于这类工具,他还在观望。他说:“我的任务是,确定这些技术中哪一种适合自己,然后再对相应的人员进行培训。”

与企业一样,肯塔基州大学也对监控其品牌评价很有兴趣。Kellen表示,他也有兴趣开发特定的应用程序,解决学校关注的具体问题,如学生流失等。例如,监控学生在社交媒体上的帖子可以帮助教职员工及早了解学生是否在学习上遇到了麻烦。戴尔公司的支持部门也会经常关注推特,以便及早发现是否有消费者发消息称自己的戴尔笔记本电脑坏掉的情况。Kellen表示,IT开发人员应想方设法,把社交媒体分析工具生成的报警机制融入到企业系统中,以便迅速应对那些事件。

Hackney说:“我们缺少挖掘分析社交媒体上大量帖子的工具。一旦你拥有数据,就需要获得相关事件的足够信息,那样才能把它们关联起来。” Hancock已经在这方面刚开始迈出步伐,把社交分析服务提供的数据与企业数据关联起来。例如,如果数据显示中西部用户对公司的评论以负面为主,他就要看看公司是不是改变了在该地区的价格或政策,从而导致这个状况发生。

Hackney表示,找出这种关联有利于说服公司领导相信分析社交媒体数据具有很高的投资回报率。