首页 > 文章中心 > 数据治理

数据治理范文精选

开篇:润墨网以专业的文秘视角,为您筛选了十篇范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

暗数据必须治理

冰山,露出海面的只是一小部分,而不为人知的、可能隐藏着更多秘密的部分通常沉在水下。这种情况与人们对数据的了解十分相似。IDC预测,到2020年,全球的数据总量将达到40ZB。如此庞大的数据量,不仅对数据存储提出了挑战,而且对人们利用和挖掘数据来说也是一个更加严峻的挑战。

不仅前,Veritas公司刚刚了一份报告《数据基因指数》,通过对数百亿份数据文件进行分析,精准地揭示了当前企业内部数据的现状,其中一个结论引人深思:40%以上的企业存储的数据在3年内未曾修改,属于过期数据。在《数据基因指数》之后,Veritas公司又了一份最新的调查报告《数据冰山报告》,进一步揭示了目前企业数据囤积背后隐藏的风险。

Veritas针对22个国家和地区的2500多名IT专业人士进行了调研,最终形成了《数据冰山报告》。Veritas试图通过《数据基因指数》和《数据冰山报告》这两份报告,从企业员工的角度和文件系统现状出发,帮助企业深入了解当前严峻的数据增长态势,促使它们采取更加积极有效的措施,解决数据存储管理中存在的种种问题,消除业务风险。

进入大数据时代,很多人可能会有这样的错误认知:只要是数据就有价值,就有存储的必要。如此一来,大量社交数据、来自移动终端上的各类数据在没有进行任何甄别的情况下全部被保存下来,有的甚至还存储在企业的各类存储设备中。如果企业不了解自身所存储的数据情况,一旦面临监管调查或刑事侦查,企业可能会陷于百口莫辩的境地。

《数据冰山报告》显示,中国的员工将企业存储系统用于个人信息存储的情况越来越普遍,这导致企业存储的资源中,个人法律和ID文档占68%,照片文件占64%,未经批准的软件则占32%。这些内容看上去似乎无关紧要,但部分文件也许会触犯数据隐私法规或造成潜在的版权隐患。

企业的管理者必须对企业拥有的数据情况有一个全面而深入的了解,这样才能更有效地发挥数据的价值,同时还能避免不必要的麻烦和风险。但是,实际的情况又是怎样的呢?《数据冰山报告》显示,全球企业存储的数据中,52%的数据为价值尚不明确的暗数据,而33%的数据属于对企业没有任何价值的冗余的、过期的或不重要的陈旧数据。如果企业对这些非关键的业务数据置之不理,那么暗数据和陈旧数据将给企业带来不必要的资源和成本浪费。

《数据冰山报告》指出,对于那些拥有1000TB数据的普通中型企业来讲,企业每年存储非关键业务数据的成本将超过400万元;到2020年,全球企业将花费大约21.5万亿元用于数据管理。如果企业不对暗数据和陈旧数据进行妥善处理,这21.5万亿元中的相当一部分将被浪费。

《数据冰山报告》发现,中国企业暗数据的比例为54.5%,比全球平均水平高2.5%;中国企业中的陈旧数据比例为21%,比全球平均水平低 12%。数据囤积文化和员工对待数据保留策略的冷漠态度是导致暗数据和陈旧数据越积越多的主要原因。Veritas公司大中华区总裁萧建生表示:“企业消除‘数据冰山’的关键是认识并了解企业存在的数据囤积文化。只有这样,企业才能掌控它们的‘数据冰山’,发现在海平面以下的那部分‘数据冰山’的业务价值和风险。”

全文阅读

大数据时代更需要数据治理

数据治理在“大数据”成为热词后,更加被业界关注。大数据带来的一个显著变化是,大量数据来自于数据中心之外,包括笔记本电脑、平板电脑、智能手机以及传感器、社交网站等。数据量激增,数据类型也变得多样。数据散落在不同的系统中,哪些数据是可信的?数据是否面临更大的风险?如何从海量数据中获得洞察?大数据时代,企业更加需要数据治理。

“数据治理是目前一个比较新兴的、正在发展的学科,目前业界对它的定义还不完全一样。”IBM全球企业咨询服务部业务分析与优化团队副合伙人谢国忠说,数据治理(Data Governance)是围绕将数据作为企业资产而展开的一系列的具体化工作。数据是企业最大的价值来源,同时也是最大的风险来源,数据管理不佳通常意味着业务决策效果不佳以及更可能面临违规和失窃。而利用规则的可信数据有助于组织的业务创新――提供更好的服务,提升客户忠诚度,减少合规及报表要求所需工作,并提升创新能力。

国内企业数据治理成熟度不高

“在过去几年中,数据治理的目标也在发生转变。”曾经帮助金融、航空、海关、电信、电网等行业客户做过数据治理项目的谢国忠表示,“除满足监管和风险管理要求外,现在很多企业在说怎么通过数据治理来创造业务价值。如信息披露、行业领先以及精细化管理的需求。”

“目前国内大部分企业在数据治理方面还处于基本管理阶段。”谢国忠评价说,“有些公司说做了很多数据质量检查,做了数据归档、数据安全,但他们的问题是没有一个完整的体系。其次,怎么把这些领域串起来,他们没有方法论。第三,他们在观念上还达不到把数据当做核心资产来运作。”因此,谢国忠认为国内企业首先需要一套完整的数据治理体系。

他认为国内企业数据治理方面存在误区:觉得数据治理是很短期的行为,认为数据治理只是IT部门的责任,只把数据治理当成软件。实际上,数据治理不光是软件,还要有相应的流程、方法。

谈到数据治理的实践,IBM自身就是数据治理的典型代表。1992年之前,IBM在数据治理方面存在很多问题,没有明确的可依赖的数据源,没有明确的数据所有人,数据质量低下。1995年,IBM在ERP里面做了业务数据标准,将所有的业务定了15大类业务标准、79个分类子业务标准,这样全公司看到的是一个统一的业务定义。2004年,IBM成立了数据责任人论坛,2005年成立了数据治理委员会,之后又成立数据审核委员会。1992年,IBM全球有128个CIO、155个数据中心、80个Web拓展中心、31个不同的网络、16000个应用。通过数据治理,IBM简化了基础架构,并降低了管理的复杂度。2007年,IBM全球只有一位CIO,主数据中心变成了6个,Web拓展中心变成全球统一的网络,16000多个应用变成4000个左右。

在此基础上,IBM在2004年联合业界多家公司和学术研究机构,成立了数据治理论坛,并在此次论坛上,制定包括四大领域11个要素的数据治理框架和方法,来指导数据治理工作的开展。框架包括产出领域:数据风险管理、价值创造;驱动领域:组织机构/流程、管理制度、数据责任人;核心领域:数据质量管理、信息生命周期管理、安全/信息披露/合规;支撑领域:数据模型/数据架构、元数据/主数据/数据标准、质量审计与报告。

全文阅读

云端数据治理初探

摘 要:该文论述了数据治理研究进展,分析了云计算环境下的数据特点,针对性地提出了云端数据治理体系概念。云端数据治理体系利用PDCA质量循环控制方法,并借鉴了项目管理、数据治理、IT治理等领域的实施方法论,为有需要的组织在优化数据治理战略、建立更加完善的数据治理流程、强化数据治理保障等过程提供参考。

关键词:数据治理 云端数据治理 治理体系 云计算

中图分类号:TP274 文献标识码:A 文章编号:1674-098X(2017)01(a)-0096-02

云计算作为“云、物、移、大、智”的最基础支撑,为数据爆发式增长与数据快速流动提供了关键基础设施。云计算的优势在于能够支撑起越来越大规模的海量数据的存储、处理、分享与协作。但随着数据规模不断增长,以及非结构化数据所占比重的提高,数据的价值密度越来越低。如何在保证数据安全的同时发挥数据所蕴含的价值,是所有将数据视为资产的机构必须思考的问题。数据治理是发挥数据价值、保护数据安全的有效措施,但随着云计算对数据所处环境变化起到的主导作用,研究云计算环境下的数据治理十分有必要。

1 数据治理主要研究进展

在数据治理研究领域,国际数据管理协会(DAMA)、数据治理研究所(DGI)、IBM、CMMI研究所等组织提出了多种数据治理框架或数据治理模型。

DAMA认为数据管理是规划、控制和提供数据及信息资产的一种业务职能,包括开发、执行和监督有关数据的计划、政策、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值[1]。该定义突出了数据管理的职能、过程和规范3个关键词。在职能上认为数据管理是业务数据管理专员和技术数据管理专员共同承担的责任;在过程上,认为数据管理是数据资产管理的权威性和控制性活动,是在数据管理和使用层面之上进行规划、监管和控制;在规范上,认为数据管理必须遵守相关的规则和规范,才能确保数据管理过程能够顺利进行。

DGI认为数据治理应建立独立的数据治理理论体系,从组织、规则、过程3个层面提出了数据治理框架。组织即制定和执行数据治理规则和规范的组织结构,包含数据利益相关者、数据治理委员会和数据管理者;规则即建立、协调和规范数据治理工作的规则,以及指导不同部门共同制定和执行规则的协同工作规范,包含使命和愿景、目标、治理成效的度量标准、财务策略、数据规则和定义、决策权、职责分工、控制6个组件;过程即数据治理应遵循的工作步骤和流程,包括主动、被动和正在进行的数据治理过程。

全文阅读

建立数据治理框架 让数据创造价值

2002年底,中国南方电网公司(以下简称“南方电网”)扎根在华南和西南,负责投资、建设和经营管理广东、广西、云南、贵州和海南五省区的南方区域电网,供电面积100万平方公里,供电总人口2.3亿人。

南方电网东西跨度近2000公里,是国内结构最复杂、联系最紧密、科技含量最高的电网,也是西电东送规模最大、效益最好、发展后劲最强的电网。

如何解决数据短板

南方电网服务的五个省区是中国经济最为活跃的区域之一,但随着信息化建设的不断深入,南方电网的管理层深刻地认识到,数据已经成为公司生产运行和经营管理中的一个短板,这个问题不解决,企业的战略就无法落地。

南方电网从建立伊始,就非常注重对数据的管理,但是整体数据管理能力还有待进一步加强。主要突出表现在数据资源管理组织及认责体系不完善、数据资源管理的流程不完整、数据资源管理的技术支撑不足以及数据标准及数据规划落地执行力度不够等方面。

面对上述问题,南方电网决定建设完善全网统一的数据资源管理平台,实现对公司重要数据的采集、存储和使用的全生命周期管理;为公司智能决策分析和信息共享提供高质量的数据支持;实现自动化信息与管理要求的高度融合;确保公司核心数据和重要数据的正确性、一致性和完整性。

数据资源管理平台建设是一项系统工程,实施难度较大,为了确保成功,避免重复劳动,甚至推倒重来,承担项目建设任务的南方电网信息部门研究、借鉴了大量的国内外成功案例,发觉大型跨国制造业、银行、科技咨询公司在应用成熟的数据资源管理技术时最关注的核心因素是――主数据管理MDM(Master Data Management),而“企业数据集中”的实施模式可满足南方电网需求,平台型软件则更符合数据资源管理建设的现状要求。

主数据管理是关键

全文阅读

浅谈数据治理在数据质量管理中的作用

[摘 要]当今社会,很多大型公司和机构拥有大量但分散在所有运营系统中的客户、产品和供应商相关的信息。没有合适的监督,数据的质量将不断下降。数据质量管理是一门学科,包含度量、改进和验证组织数据质量和完整性的方法。数据质量包括数据标准化、匹配、寿命和持续的质量监控。数据治理组织需要建立策略来识别高价值数据属性,建立机制来不断提高数据质量。

[关键词]大数据;数据质量管理;数据治理

doi:10.3969/j.issn.1673 - 0194.2016.18.133

[中图分类号]F830.49;TP311.13 [文献标识码]A [文章编号]1673-0194(2016)18-0-01

1 建立数据质量策略

各个应用系统、业务部门都拥有对其运作至关重要的数据,因此,了解数据是非常重要的。建立数据质量策略与数据治理流程中“了解数据”的步骤紧密连接。首先,在数据治理组织识别了业务驱动的数据治理关键绩效指标后,就很容易确定具有最高价值的数据属性。其次,数据治理组织还需要制定可接受的数据质量水平策略。最后,数据治理组织需要制定处理数据质量问题的策略和规程。

2 建立数据治理组织架构

健全的数据治理组织是全面开展数据治理工作的基础,数据治理组织应包括管理人员、业务人员和技术人员,缺一不可。数据治理组织可以设置三种角色,数据治理委员会、数据治理业务组、数据治理技术组。

全文阅读

数据制假的根源与治理

近年来,各行各业都在进行声势浩大的打假运动,这在某种程度上切实保护了广大人民群众的利益,维护了社会的形象。随着我国社会经济的发展,数据制假案例日趋增多,尤其是在我国加入WTO后,数据制假问题将显得更为突出。当前国际上很多国家对我国的数据质量提出种种疑问,虽然这种疑问含有很浓的政治成分,但也说明我国的数据质量在某些方面确实还存在一些问题,至少在公开化和规范化方面还不是很令人信服。目前我国已加入世界货币基金组织的数据公布通用系统(GDDS),作为一个会员国报送真实有效的数据是义不容辞的责任和义务。鉴于此,笔者想就数据打假工作发表一点看法。

数据制假概述

数据是一种无形商品,具有价值和使用价值。数据制假是指数据提供者对数据的真实性进行故意歪曲的行为。它是一种犯罪,会严重破坏市场经济的秩序,是对现代法制社会的一种挑战。

数据制假有其独有的特点:强隐蔽性和大危害性。原始数据收集方法复杂多样,整理过程多阶段,汇总程序复杂化,经手人员较多等等,这些都给数据制假者提供一些遮人耳目的借口。虚假数据的危害性不言而喻,它的隐性危害会致使整个社会经济处于失衡状态,其危害之大远远超过其他造假所带来的负面影响。

虚假数据影响到国家政府机构的重大决策,导致整个国民经济不平衡非良性发展,从而给整个社会经济发展带来致命的灾难。虚假数据对数据使用者产生严重的误导,影响到数据使用者的各种决策,必然影响到企业的整体发展规划,从而造成市场的供求失衡。数据制假会致使整个国家丧失诚信机制,破坏国家的法制体系,使社会处于弄虚作假的无序发展状态。

虚假数据的源流

主观原因:政绩需要;意识淡薄;经济利益驱使。

我国干部任命体制在很大程度上依赖于统计部门上报的数据,社会经济的业绩被上级政府部门作为干部考核的唯一指标。各级部门制定计划指标不切实际,导致下级部门无法完成这些指标,为了完成任务指标下级部门不得不虚报瞒报篡改真实统计数据。

全文阅读

大数据治理未雨绸缪

“如果你是一个黑客,闯入了某公司内部网络想窃取些有价值的信息,最有可能去的是哪里?数据库肯定首选,如果公司还部署有Hadoop大数据平台的话,如今Hadoop也是一个好的去处。”Ron Ben Natan 博士用这样的开场白开始他关于大数据治理的演讲。

Ron Ben Natan 博士是IBM Guardium公司副总裁兼首席技术官,一位军人出身、有着20多年数据安全领域从业经验的专家。2009年随着IBM收购Guardium而进入IBM。大数据是这位安全专家新近重点关注的领域。自然,作为安全专家,Ron Ben Natan博士的视角还是落在大数据的安全、审计等与数据治理相关的问题上。

在Ron Ben Natan看来,随着大数据热的持续升温,大数据的应用开始从互联网企业向金融、电信、制造等传统企业渗透,安全和审计需求正在逐步显示出来,如何在充分挖掘大数据潜在价值的同时确保企业信息的安全与合规开始引起业界的关注。

大数据的安全隐患

大数据为数据分析开启了一个新的世界。以Hadoop为代表的大数据处理平台利用开源软件结合通用服务器实现了商业智能,大大降低了商业分析的门槛,从而惠及了更多普通的中小企业。然而,由于大数据是一种数据集中存储的方式,这种集中存储也给企业的信息安全带来更高的风险。

“总结过去有关数据安全的事件,90%以上都与数据库相关。应该说,把好了数据库的安全关,大部分数据安全的问题也就基本解决了。如今,大数据面临的安全风险与数据库是非常相似的。”Ron Ben Natan说。

Ron Ben Natan解释说,目前来看,大数据的安全问题还不是特别突出。原因在于早期的大数据用户主要是互联网公司,比如谷歌、亚马逊以及一些电子商务网站,其应用侧重于对用户上网后的点击行为进行分析,用于了解用户对品牌的偏好、挖掘新的商业机会等,其安全问题还不突出。不过,随着大数据的用户向更多行业和领域进行扩展,比如,在金融和电信领域,一些大数据应用就涉及用户的隐私,此时,安全问题就会显现出来。

“即使在互联网公司,也不能说大数据的安全就不重要。实际上,如果社交网站把用户的一些网页浏览行为等信息泄露出去,也可能带来非常不好的结果,至少会引发用户对它的不满和不信任,最终可能导致客户的流失。”Ron Ben Natan说,比如,Facebook现在有超过10亿用户,它如果出现安全漏洞,可能影响这10多亿的用户,其影响是很大的,因此,这类互联网公司对数据安全也有很高要求。

全文阅读

数据治理 建立长效机制

“十一五”时期银行数据大集中后,对数据的规范管理、质量改进及应用机制建设成为摆在信息主管面前的重要课题。

“我们2003年就开始搞大数据。”中国农业银行软件开发中心赵维平表示,“当时遇到很多困惑,如技术路径、平台选型方面的问题。最终,我们选择了自主可控的技术路径:基础硬件、基础软件、数据模型、工具平台和制度管理都是自主可控的。”

赵维平介绍说:“农行的大数据平台建设,硬件方面我们采用华为RH2288系列,基础软件方面我们引进了南大通用的MPP架构数据库,从28个数据节点扩展至后来的56个节点,非结构化、结构化的上游生产数据基本都放在MPV架构数据库中。数据模型方面,我们结合先进建模理论,融合了范式和维度思路。基础工具方面,我们以自主开发为主,制定了一套比较完备的规范、制度、方法和标准。”

农行大数据平台有着比较清晰的逻辑架构。“在数据源层,全行几乎所有生产系统数据已纳入进来,通过交换平台实现上游数据生产和下游数据消费系统之间,总分行之间,总行各应用系统间的数据交互。”赵维平解释说,“在数据分析挖掘方面,我们按业务细分领域落到不同的应用系统中去尝试实现。同时,我们也在加大对各类算法,聚类、分类、回归、神经网络等的研究,注重数据分析人才的培养。”

在探索大数据应用方面,中国银行推出的中银开放平台是一个实践产品。中国银行总行软件中心上海分中心副总经理牛晓峰介绍说:“这个平台获得了2015年人民银行的科技进步奖。其设计思路是将中国银行整体数据进行归并整理,开发出1000多个标准API接口,并将这些接口开放给中行各分行及客户,他们可以通过API访问并使用中行数据,加工后获得想要的应用结果。”

对于如何更为有效地释放银行数据价值,牛晓峰认为三个方面比较关键。“一是在合规前提下要更有效、充分地利用银行外部数据服务;二是以应用为驱动,要做大数据应用的场景产品;三是通过将结构化、非结构化,线上、线下的数据有机提炼并整合起来,从而更精准地建设客户营销平台。”

四大银行中,中国建设银行拥有庞大用户基数,目前手机银行用户数达1.8亿多,网上银行近2亿。“随着手机银行、网上银行及微信银行三大互联网渠道的建立及用户数的累积,我们应用大数据的场景和基础已经具备。”中国建设银行信息技术管理部资深经理林磊明表示。

他认为,传统银行做大数据主要为解决三大问题。“一是提升客户识别,二是利于客户营销,三是强化风险防范。”

全文阅读

论大数据背景下的政府“循数”治理

〔摘要〕 在大数据背景下,政府“循数”治理,需要树立正确的“循数”治理理念,全面把握大数据的实质,客观评价大数据对政府治理系统的影响,及时将“循数”治理内化到治理举措中;构筑“循数”治理保障体系,为“循数”治理提供智力支持,建立“一体两翼”的数据中心模式,推进电子政务;提升“循数”治理能力,包括对政务数据的掌控、整合、使用的能力。

〔关键词〕 大数据,政府,“循数”治理

〔中图分类号〕D630 〔文献标识码〕A 〔文章编号〕1004-4175(2014)06-0082-05

2012年,徐子沛的著作《大数据》在中国社会开大数据之先河,引发了大数据战略、数据治国和开放数据的讨论,他在本书的后记中讲到:“通过和一个又一个项目的‘亲密’接触,我真真切切地‘透视’到数据在美国政府和企业当中的重要作用。在了解其成因、背景和趋势的过程中,我常常被数据的力量和美感所震撼。我将这种新的特点和趋势概括为‘大数据时代’的‘循数管理’和‘数据竞争’”。在此,本文将“循数管理”引申为“循数”治理。当前,越来越多的学者将政府置于大数据的背景下进行研究。原因无外乎两点:一是数据潜藏着广泛的公共需求或公共问题,现代政府已然“浸泡”在大数据之中避之不及;二是大数据蕴含着巨大的管理价值和能量,现代政府若失去对大数据的掌控势必影响其治理效能。此意亦为,大数据为“建设什么样的政府”提供了技术新背景和方法论新注解,客观上大数据已经成为政府治理生态的关键要素,重塑和改造着政府的外部生态系统,政府主观上也迫切需要大数据在治理过程中彰显效能、发挥作用。因之,政府必须在理念层面、技术层面、保障层面积极回应大数据时代提出的新要求,加强“循数”治理,即以数据为依据、资源、工具来发现、分析和解决公共问题,以此保证治理更为科学客观理性。

一、 树立“循数”治理理念

“作为社会管理和公共服务的提供部门,收集数据、使用数据,是自古以来全世界政府都在普遍采用的做法。” 〔1 〕 (P40 )据此我们完全可以把“循数”治理理解为政府的一种常规行为(或行政传统)。然而在信息技术的驱动下,后工业时代的数据整体上具备海量化、资产化、传播主体的多元化、传播途径的多渠道化、传播过程的强互动性等特点,客观上要求现代政府树立数据治理的理念。

(一)全面把握大数据的实质。目前学界在回答何为大数据时更多是给出了一些描述性阐释。比较有代表性的观点认为“大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据” 〔1 〕 (P57 ) 。对此不难理解,因为随着技术的进步,作为信息载体的数据的“大”、“小”都只能是一个相对概念。因此,我们从大数据本身属性来思考其对现代政府的治理成效产生的影响兴许更为可取。现有研究多有提及IDC公司及IBM公司对大数据的界定及特点归纳。IDC及IBM对大数据的特点都概括为“4V”,二者均认为大数据具有容量大(Volume)、增速快(Velocity)、多样性(Variety)的特点,但对大数据的第四个特点二者具有差异性解释:IDC认为大数据还具有价值性(Value),而IBM则把真实性(Veracity)视为大数据的另一个特点。我们倾向于认同IDC公司的观点。实质上,容量大是大数据的整体特点,增速快是大数据的过程性特点,多样性是大数据的具象性特点,价值性是大数据的时代性特点。客观上看,作为社会治理的主要参与者,政府已经浸淫在大数据之中,其面临的政务信息和治理数据已经具备了总量大、增速快、多样化等特点,倘若政府不能够正视大数据在公共治理中的客观现实性,忽视大数据在公共治理中的价值性,现代治理的目标必将难以实现。简言之,现代政府必须清楚认识到:在现代治理中,大数据已经实然存在,政府不能在循“数”治理方面无所作为,而应该是积极挖掘大数据的应然价值。

(二)客观评价大数据对政府治理系统的影响。现代政府处于一个数据化的环境之中。无论是政府面对的资源环境状态、亟需解决的社会问题,抑或是政府解决问题的手段方法及政府行为的结果和效能无不以一定的数据形式表现出来。在此背景下,社会系统中的数据与政府治理责任之间形成了一种内在关联性,大数据深刻地改变了政府治理的责任生态。

全文阅读

大数据分析与治理

每天微博上的留言转载、电子商务网站上的用户点击流、各种音视频记录文件、大量的网络服务日志……大数据时代扑面而来。大数据有三V特征――海量(Volume)、多样(Variety)和实时分析(Velocity)。3月30日,在2012第五届中国数据中心大会的大数据分析与数据治理分论坛上,杭州瑞网广通技术有限公司总裁杨建军就介绍,他们为平安城市、智能安防、数字城市监控云所做的项目的数据量都已是PB级的。如何对海量的结构化和非结构化数据做实时分析,从而支撑决策,是大数据时代业界的共同挑战。

数据分析:从挖金土豆到筛金沙

大数据之所以成为业界的热点,是因为现在做数据分析的价值越来越大,在Hadoop等技术的支持下,成本相对越来越低。对于企业做数据分析的价值和方法的前后变化,Informatica公司大中国区首席产品顾问但彬在论坛上,用一个非常生动形象的比喻做了说明:“如果将做数据分析比喻成开采金矿,原来我们所做的是用挖掘机挖金土豆,而现在则是用筛子来筛金沙。因为现在大量分布在社交网络的数据,对企业而言就是就像是大量的金沙,分布广泛而分散。如果能用低成本的方法筛出金沙,是非常有价值且值得做的事情。”

但彬介绍,Informatica作为一家数据集成公司,更关注的是如何把来自各个地方的大数据,通过像抽水机的泵一样的装置整合到需要的程度和地方。Informatica2011年完成了近8亿元的收入,这也是对大数据市场火热程度的一个印证。

Informatica主要从四个方向考虑大数据处理的一些问题:第一,大数据的集成,即从数据种类的多样性方面,整合所有来源的所有数据类型,不管是来自交易系统的结构化数据,社交网络的半结构化、非结构化数据,还是来自RFID读卡器的感应数据;第二,保障数据的权威、可信性,保障数据安全,实现可重复利用、一致的数据质量;第三是实现数据的自助式服务,消除手工操作带来的错误,提高生产率,允许分析员通过基于浏览器的工具直观地定义和校验从源到目标的处理流程,以此自动生成映射逻辑,交由开发人员部署运行;第四是自适应服务,通过多协议数据配置、集成数据质量等手段实现交付适应不同项目需求的数据。

从交易到交互,从互联网行业到传统行业,大数据的渗透力和影响力不容小觑。在Teradata大中华区首席架构师张新宇看来,除了数据管理,更重要的是数据分析,利用新的分析方法,比如通过使用Map Reduce(编程语言可以是Java/Python/Perl/C/C++)新分析框架,提供针对多种数据的并行处理能力等,实现大数据的洞察力是更关键的。

北京赛迪时代信息产业股份有限公司存储工程服务事业部总经理李降龙也介绍,大数据带来的挑战在于怎样实时处理这些数据,通过虚拟化搭建一个计算和存储资源池,以弹性架构有效地合理分配和使用它们,并建立合理应用系统,使大数据得到最好的管理和使用,才能发挥大数据的价值。论坛上民族证券CIO颜阳也分享了证券公司对于大数据的理解以及他们所做舆情分析的大数据应用。

职场新贵:数据科学家

全文阅读