开篇:润墨网以专业的文秘视角,为您筛选了一篇基于分布式云计算技术进行海量数据运营的探讨范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
【摘 要】电信企业内部会在清单、信令、日志等多个地方生成海量数据,传统的处理方式成本高、速度慢,无法应对互联网时代快速、高效的要求。针对这一问题,采用云计算技术Hadoop集群处理海量用户清单,为业务系统和分析系统提供一个分布式可动态扩充的数据库,有效地提升了清单入库、查询和统计速度,同时硬件成本降低了90%以上。
【关键词】云计算 分布式 海量数据运营 Hadoop
中图分类号:TP315 文献标识码:A 文章编号:1006-1010(2013)-05-0084-04
1 前言
随着电信企业的业务范围拓展、服务精细化要求和IT技术发展,在企业内部或互联的IT系统中,存在着飞速膨胀的海量数据。和以往对比,现阶段企业海量数据呈现出数据量更大、数据类型复杂、处理速度要快的新特征。与此同时,越来越多的企业开始重视海量数据的处理,研发出各种海量数据处理技术,从中发现巨大的商业价值,以Google、Facebook、淘宝为代表的中外互联网企业,走出了一条以免费的基础服务为根本、以海量数据运营掘金的信息企业模式。
这种现象可以称作“海量数据运营”,它是以海量数据处理为基础,以服务对象为核心,以客户关系为目标来进行信息的生产、交换,商业模式更有价值,企业运作更加优化,达到盈利或提供更好服务等商业或社会目标。
2 电信行业面临的困境和对策
在传统运营模式下,电信业务从技术到商业模式相对封闭,对于IT系统中产生的数据如用户话单、信令日志、运行日志等,除了部分用于提供给用户查询,大部分用于故障处理、简单统计。而对这些海量数据的分析,面临4大技术困难:
(1)数据量太大,用于存储和计算的设备成本高昂;
(2)没有合适的工具支持,传统关系型数据库只能存储几T数据、上亿条记录;
(3)随着设备变更、网络升级、业务更新,原始数据模型经常变化,构建结构化模型并同步更新的难度非常大;
(4)分析结果无法快速有效地实施到网络或业务平台。
随着3G业务的发展、终端渗透率的提高和IT技术的进步,电信业务从技术到商业模式越来越开放,业务的盈利能力越来越依赖前面的终端和后面的业务平台。苹果、三星等智能终端厂家成为运营商争先拉拢的对象,移动互联网带来的大部分增量利润更多地涌向了创新型技术公司,而海量数据流量却冲击着电信网络的承载能力。
业务承载量增长、收入增长、利润下滑,变成全球电信运营商普遍面临的困境,把网络建好、坐等收钱的好时代已经过去,运营商的主导地位岌岌可危,被管道化的趋势越发明显。
面对这种局面,运营商开始提出“智能管道”、“流量经营”等思路求变,希望能够提升对用户的业务使用管理能力,寻找更好的业务模式,充分发掘网络承载能力,增加单位流量价值。一方面提升网络能力,达到精细化控制目的,如PCC(Policy Control and Charging,策略控制和计费);另外一方面,对生产关键环节的海量数据进行细化分析,能够动态、精细化地实现有效控制和资源优化,如DPI、信令分析。其中DPI分析的上网记录每日高达30T,信令日志的数据量也以T级别增加,海量数据运营开始出现。
这些方面的建设当前都取得的不少成绩。在国外,相关运营商推出了定向套餐和流量控制业务,如Vodafone、BT在流量高峰时段控制P2P业务,O2优化网络让iPhone、iPad终端拥有高优先级和最大可用网速,Orange推出自有业务获得最高的端到端优先级等。
3 海量数据运营的探讨
当前的海量数据运营大部分在网络层面,充分体现了数据包、带宽、QoS、信道、小区、容量等网络特征,对三户一品(客户、用户、账户、产品)、营销、服务、计费、信控等业务特征进行了简化或弱化处理。大量数据如用户状态、业务订购关系、累计量等需要从业务侧同步到网络侧,存在着时延较长和不一致现象。
运营商应该建设覆盖面更广的体系,有机融合现有支撑系统,充分利用现有支撑体系内部数据和功能,为客户提供更好的服务,产生更大的价值。但这种系统容量需要达到上百T,处理的实时性要求更高,若采用传统的“scale up”的建设思路,不但成本高,而且无法根据用户和业务变化进行有效的调整和更新。
云计算技术的发展,提出了“scale out”的建设模式,根据互联网企业的经验和电信企业的特点,新的海量数据运营系统必须支持如下特性:
(1)分布式架构:只有采用这种架构,才能充分利用现有的低端PC,在合理的成本基础上,将其组合成为满足电信企业的体系;
(2)半结构化数据:电信领域的业务种类繁多、设备厂家多、升级频繁,固定结构的数据在灵活性方面很难适应;
(3)动态作业能力:只有自动适应、自动分解、负载均衡的系统,才能对海量数据做快速运算和分析,满足网络侧的低时延要求。
4 云计算清账单系统试点
在电信企业内部,用户使用清单和账单(以下简称“清账单”)的存储和查询是一项基本业务。这一业务的特点在于数据量巨大(一个省公司每月的清单条数可达数十亿,每条记录可包含数百个字段),同时对实时性(从事件发生到可查询的时间间隔)和历史性(保存多久的记录)的要求很高。
传统的系统是基于小型机和SAN存储实现的,存在容量有限、插入速度低、查询并发性差等问题。同时,传统的系统只能提供导入、查询和简单的固定统计功能。如果要对清账单进一步进行分析,则需要搭建昂贵的数据仓库,采用专有软件和设备,才能实现有效分析。
云计算清账单系统,一是要克服现有的清账单系统存在的问题,建立一个低成本大容量的系统,二是要能够对于清账单实现数据仓库级别的灵活分析统计功能,三是能够和网络侧及支撑体系其他部分结合,提供实时的营销和服务功能。
云计算方案基础采用Apache Hadoop系统,并采用多重优化和创新来满足企业运营需求。整个体系共80台左右(HBase/HDFS/JobTracker/Thrift共享PC服务器)自带硬盘的双路PC服务器,共同搭建起Hadoop集群(如图1),支持1.2亿移动用户6个月的清账单处理工作。
HBase实时数据引擎:实时NoSQL数据库引擎,基于列存储方式,很好支持稀疏表,提供强大并发查询能力。
HDFS分布式文件系统:分布式文件系统,支持PB文件存储,最大可支持三份数据冗余,确保数据在分布式环境的安全性。
MapReduce计算框架:基于HDFS的分布式计算框架。具有数据在存储服务器本地计算的特点,替代传统的把数据从存储迁移至小型机再进行计算的旧模式。
ZooKeeper管理软件:调度管理集群中的服务器,一般为单数多台服务器,具有仲裁能力。
Hive查询软件:支持SQL查询,提供了一种利用MapReduce分布式计算框架对HBase中的数据进行高效的分布式处理的简便方法。
Thrift接口软件:提供C、C++、Java等多种高级语言统一访问接口,实现与外部不同种类异构平台实时数据交流。
该系统全部使用廉价的X86服务器及Linux操作系统,提供600TB有效数据空间。新系统每5分钟加载一次数据,入库资源控制在20%左右,已经实现1000MB/s(100万条/秒)入库效率,在业务最忙时也不会产生数据积压。
原来小型机的系统,只能满足200笔查询/秒。Hadoop通过HDFS分布式文件系统把海量数据分隔存储在各集群服务中,再通过HBase主键索引快速定位待查数据块。总体上,不同的用户访问不同的服务器,由Hadoop集群统一管理及调度,大大提高系统的并发能力,新系统在已经支持8000笔查询/秒的用户随机查询,返回结果集达80万条/秒。而且随着集群规模的横向扩展,性能还可以线性地提供,这是传统的小型机解决方案很难实现的。
除了优异的加载及查询性能外,基于X86的Hadoop系统另外一个重要的特点是节省成本(如图2)。当前大主流的X86服务器,性能上基本都能达到40万tpmC,甚至过百万。而一台中高档的小型机,tpmC值大部分在100万~200万之间。因此,如果需要达到上述HBase RegionServer同样的硬件计算能力,至少需要14台中高端小型服务器,假设按每台100万人民币计算(实际价格更高),总计1400万人民币。同时,传统的解决方案一般使用计算服务与存储分离的方式实现。为了满足高性能及安全性要求,一般会选择中高端存储,每TB存储的平均价格在5万人民币左右,即如需满足600TB容量要求,需要约3000万人民币。而使用X86的解决方案,平均每台服务器价格约在3.5万左右,80台服务器只需不到280万。除此之外,以上价格仅是硬件的投入,还不包括传统商业数据库昂贵的商业许可。
对于上述体系的分析统计功能,采用Hive+Map
Reduce方式来实现,它提供了一种类SQL的查询语言HiveQL。该方法将HiveQL翻译成MapReduce任务来交给集群执行,实现更高的开发效率和更短的开发周期。同时,Hadoop有集群IO带宽的优势,能大大地提高海量数据统计分析的速度,原来36小时的任务集在Hadoop上只需要数小时即可完成。
现在广东移动公司正在内部的清单系统上部署分布式数据挖掘框架Mahout的机器学习和数据挖掘功能,对用户的用户行为、基站等方面进行分析,通过分类等数据挖掘算法的应用,挖掘出更多的信息。例如对客户进行精细化营销、防止客户流失等方面提供决策帮助。根据用户的使用记录,按照若干指标(业务类型使用分布情况、终端类型、上网时长等)对客户群进行分组,并标签化。据此可向用户推荐合适的套餐,也可以据此设计更合理的套餐。
广东移动公司基于Hadoop平台构建的新清账单系统已经平稳运行半年以上,有效地证明了云计算技术能切实地帮助国内运营商降低成本,提高竞争能力。
5 结束语
基于Hadoop的云计算实现方案,降低了电信运营商对小型机、存储、商业数据库/数据仓库的依赖,大大降低了投资成本,为海量数据运营提供了一个优秀的平台,为电信企业开展更大范围的流量经营提供了坚实的技术基础。淘宝、百度、Google等众多的互联网公司经验证明,分布式云计算技术的发展为企业经营模式转变提供了契机。
参考文献:
[1] 中国行业研究网. 全球电信运营商发展困境及策略探讨[EB/OL]. (2012-7-18). .
[2] 人民邮电报. 《财富》全球500强电信业表现疲软[EB/OL]. (2012-7-11). .