首页 > 范文大全 > 正文

从关注系统级容灾向业务级冗灾过渡

开篇:润墨网以专业的文秘视角,为您筛选了一篇从关注系统级容灾向业务级冗灾过渡范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘要】移动业务支撑系统经过多年的发展建设,形成了规模庞大,结构复杂,业务多样的业务支撑系统,对于系统中重要模块建立了数据库级的冗灾,实现了异局点冗灾备份,在很大程度上保障了业务数据的安全。但随着运行维护工作的不断细化和内外部客户对业务支撑系统不断增加的需求,我们也发现比如冗灾系统对于业务级冗灾考虑不足,无法在部分关键业务中断时快速切换,无法发挥更有效的作用。针对相关问题的分析和总结,提出了“从关注系统级容灾向业务级容灾过渡”的解决方案,在现有的冗灾和生产系统中增加了CSM备份服务器和ETL调度服务器。对于关键业务应用安装在外置存储盘上,通过冗灾系统的SRDF保证生产环境和冗灾环境相同DG上存储信息的一致;操作系统安装在本地盘上,并通过ETL定期的对关键业务所在分区进行镜像备份。

【关键词】业务级冗灾;自动化运行维护

1.背景

河北移动公司经过十多年的发展建设,形成了规模庞大,结构复杂,业务多样的业务支撑系统,且系统中重要的模块都建立了物理存储级的冗灾,实现了异局点冗灾备份,在很大程度上保障了业务数据的安全。随着运行维护工作的不断细化和内外部客户对业务连续性要求的不断增加,我们也发现:冗灾系统对于应用级冗灾考虑不足,无法在关键业务中断时快速切换,并及时恢复业务等问题,详细描述如下:

现有冗灾系统建立在物理存储级别上,主要用于核心业务数据库或者数据库使用的存储出现重大故障时的业务保障,对于部分关键业务应用的冗灾考虑不足,比如信控,开机等对时效要求很高的关键业务应用,在目前的冗灾系统中没有考虑,类似关键业务应用出现问题时,无法通过冗灾切换恢复业务;另外如计费,帐务应用,即使在冗灾环境考虑了对应的设备,但是由于缺乏有效的手段保证冗灾侧与生产侧主机操作系统环境完全一致,多数发生故障情况下无法通过冗灾切换恢复业务,或者因切换过程中需要修改应用配置,过程复杂,切换时间长而失去意义。

目前在生产环境上进行月结,每月1-3号月结期间生产系统负荷非常大,不可避免的导致各个服务渠道出现系统响应缓慢,业务服务质量下降,尤其是部分关键业务服务质量下降明显。

现有业务版本上线在生产系统上进行操作,一旦关键业务应用发生问题后无法回退,只能在生产环境上进行修改,恢复业务时间过长。

工程期间用于部署软件环境的时间过长,即使投入了大量的人力和时间来部署业务环境,仍然无法保证新旧环境完全一致,上线后往往引发各种故障。

经过对上述问题的分析和总结,河北公司提出了“从关注系统级容灾向业务级冗灾过渡”的解决方案,利用IBM的CSM(Cluster Systems Management)技术,通过对现有冗灾生产系统的少量改造,实现了关键业务应用的快速恢复与切换,提高了冗灾系统的利用率,缓解了月结期间生产环境的压力,实现了上线过程中应用的新旧版本回退,并在方案中大量使用自行开发的脚本,建立了自动化脚本调度平台,实现冗灾系统切换的程序化,脚本化,自动化,获得了可观的经济效益,也对自动化运行维护的可行性进行了有益的探索。

2.方案设计

2.1 整体系统结构

图1说明,在原有的冗灾环境中增加CSM服务器,直连外接存储,用来存储各种备份镜像;增加ETL服务器,用来调度各种监控,切换脚本。

2.2 方案说明

对于关键业务应用,需要在冗灾和生产环境中考虑对应的物理设备,并将应用安装在外置存储盘上,通过冗灾系统的SRDF保证生产环境和冗灾环境相同DG上存储信息的一致;操作系统安装在本地盘上,定时通过ETL调度自动化脚本,使用CSM备份服务器对于生产环境中的分区本地盘进行镜像备份,并保存在备份存储中;一旦生产环境中的关键业务发生问题,由人工按关键业务应急流程启动关键业务应急脚本,将备份的镜像直接恢复到冗灾环境本地盘上,挂接存储,启动应用对外提供服务。

图1

2.3 现有系统改造

为了保证设计方案落地,对现有冗灾和生产环境的IP地址进行了重新规划,将冗灾与生产的网络IP地址统一为一个网段,日常以生产设备为主用设备,冗灾侧备用设备使用同网段的不同IP;切换时将备份直接恢复到到备用设备上,启动后就可以使用生产IP,不用修改应用配置,保证了切换的时间。

对于生产应用安装部署策略进行了相应的修改:将生产中的应用安装在存储盘上,本地盘上只允许安装操作系统环境,确保本地盘产生的镜像备份所占空间尽可能小,以利于后期快速备份与恢复。

对于存储,在生产侧和冗灾侧的存储和主机相应增加必须的板卡,存储上划分部分磁盘给生产和冗灾侧主机使用,并建立DG同步,由监控脚本保证DG同步的正常。

3.方案应用

3.1 业务级冗灾恢复

假设生产侧相关应用主机为A,冗灾侧主机为B。日常对关键业务应用生产侧和冗灾的ROOTVG进行备份,并监控SRDF的健康状态,至少保留两个镜像,一旦此关键业务发生问题,按下列流程进行切换。

3.2 月结优化

在方案实施后,将BOSS月结计算按地市和业务进行均衡划分,一部分在原有系统进行处理,一部分在冗灾系统进行处理,两套系统同时计算,大大提高了月结效率。例如,将月结工作中的月结优惠预处理工作进行冗灾系统部署后,处理时间可以从原来的1-2个小时提高到半个小时左右。

3.3 工程安装部署环境

目前在CSM服务器上保存有针对不同应用的安装镜像,安装时选择不同镜像,在主机配置临时IP地址进行安装。

4.结语

上述优化工作自2012年12月开始设计,2013年2月开始分步实施,4月实现了的关键业务自动备份,恢复,紧急切换场景,7月份实现了月度版本上线场景,10月份进行了冗灾和生产同步月结。