首页 > 范文大全 > 正文

异构数据迁移方法研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇异构数据迁移方法研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:企业的信息管理系统更新时,经常会遇到不同数据库系统之间的数据互访和转换的问题,这种异构数据库数据转换和迁移的问题已经成为数据库技术领域重要的研究课题之一。该文根据数据存储特点,讨论了数据迁移的内容和实现方法,并给出迁移质量分析方法,为数据迁移的开发与研究提供指导。

关键词:数据迁移;异构数据;数据转换

中图分类号:TP319 文献标识码:A 文章编号:1009-3044(2013)23-5217-02

在商机瞬息万变的今天,企业的信息管理系统不断的更新换代,随之而来的就是原有系统遗留数据的问题。所谓信息系统的核心是数据而非系统,原有系统遗留的数据无疑是商业应用中最为重要的部分,所以系统迁移的重中之重必然是数据的迁移。数据迁移的成功与否对于系统的升级以及新系统能够发挥所希望的功效具有重要的意义。数据迁移后在新系统的可用性、有效性对于新系统的成败也具有十分重要的作用。文中介绍了数据迁移的基本特点、内容、实现方法,以及迁移后的质量分析。

1 数据迁移中数据的特点

信息系统在新旧系统进行替换时,数据迁移就是将原有系统的遗留数据通过一次或者多次的转换,导入新的系统中,其特点就是需要在有限的时间内对海量的数据进行抽取、分拆、重组、装载这四个基本步骤。

数据迁移的数据内容是数据迁移的重点,它可能包含文字、图片、视频和语音等不同形式的内容,对这些数据进行迁移时需要对它们进行有效的划分才能更有效率的迁移数据。这里有两种划分方法:

1)以数据信息的时间为轴的横向划分。其关键点是由于新系统包含旧系统的所有数据,所以新系统需要更大的存储空间,但是过大的存储空间也会带来由于数据量的飞速增加而出现的服务器性能的瓶颈问题。一般来讲解决的办法是将一定周期的数据定义为周期内数据,而超过该周期的数据全部导入到数据仓库或者数据集市中,从而能够进行BI(Bussiness Intelligent商业智能分析)。所以在横向划分中需要考虑的是周期的定义问题,定义多久为信息的可用存储周期是数据迁移时候需要考虑的一个关键问题。

2)对于数据的产生功能模块进行划分的纵向划分。在处理遗留系统的数据时有些数据是新系统中并不需要的,所以无法对新旧数据库进行有效的映射,因此不需要迁移到新的系统中。但是也存在一些旧系统中不存在但是新系统中存在的数据,需要考虑旧系统中空白的值需要怎样的方法进行获取。并且,对于一些功能模块耦合度高,冗余度高的系统纵向划分很有可能破坏数据的完整性。

2 数据迁移的内容和实现

数据迁移的主要内容包括原始数据库中的:首先是原始数据库的环境信息,包括服务器名、数据库名、用户名、密码等;其次有数据库的表定义的基本信息,包括表名、表的主从数据行、表的各种模式以及类型等;接着是列信息以及键值信息,包括列名、类型、长度、是否为空、主键名、外键名、外键关联列,以上信息用于数据库中表的逻辑和物理构成的转换创建以及关联映射。有了上述数据才能够根据需求进行异构数据库间的数据格式以及类型的转换。

在系统的移植过程中数据迁移包含如下几项重点的活动:首先针对原有系统的数据字典分析以及数据质量分析的两项任务;其次对于新开发系统也需要进行数据字典分析和数据质量分析两项基本任务;接着需要在新旧两个系统的数据之间找到二者之间的差异和共同点,建立两者的关联映射关系以便进行数据的迁移;然后进行数据移植开发程序或使用工具的部署工作,并确立在转换过程中抛出异常的应急方案等;最后在数据成功迁移后对数据的有效性和系统的稳定性进行的验证以及测试工作。

大体的说来数据迁移尤其是数据库系统的迁移工作可以根据实施的先后顺序分为以下三个阶段:

1)数据迁移之前所进行的准备活动阶段。这个阶段需要做到全面而周全的分析工作,只有如此才能够保证后边数据迁移的两个阶段能够顺利进行。这个阶段需要进行的工作首先需要对原有数据库的数据的组织结构进行分析,对原有数据字典进行理解,同时需要分析已存在的数据的质量。当然具体到信息系统的迁移上,首先需要对原有信息系统所收集数据的数据量、数据集中数据的时间跨度、两个系统的数据字典的异同和相同点、数据在存储方式上的差异如:分布式数据库等进行分析。其次要进行的工作就是对新旧系统中数据差异点制定处理方案,如:不能建立新旧系统数据映射的数据需要当做如何的处理等。最后是在新系统的部署方案、部署之后的测试程序的编写以及当出现不可估量错误的时候的应急恢复方案等都需要在这里做好处理预案

2)数据迁移工作的进行阶段。这个阶段需要做的是使用前一个阶段制定的方案进行实施。按照既定方案部署数据迁移程序,配置迁移环境,转换并抽取数据,然后倒入目的数据库。这个阶段也是决定数据迁移成功与否的重要阶段。

3)数据迁移工作之后的验证和测试阶段。这个阶段需要对数据迁移结果在新系统的运行效果进行判断和测试。在这里一般使用两种方式的测试:其一、通过编写一定的程序,测试新系统与原有系统数据的契合度,看新系统是否能够良好的运行的白盒测试;其二、通过组织一定的业务人员使用各个业务功能模块,来判断新系统和原有数据的契合度的黑盒测试。

3 数据迁移的方案选择

数据迁移程序的选择在商业的应用中主要采取两种方式:1.购买已经存在的性能稳定的产品;2.自主开发数据迁移程序。根据迁移所选择的工具来区分迁移又分为全部使用软件工具迁移、使用工具并进行编码迁移、全部独立开发程序迁移等。

全部使用工具进行迁移是指,将迁移的数据完全使用已经成熟的商业化软件使之迁移到目标系统中去。这种做法快捷,安全,但是需要一定的资金作为支持。成熟的商业软件功能比较强大,能够有效的完成多数迁移任务,但是这些软件大多是国外数据库管理系统开发公司制作,针对我国某些具有国家特色的项目可能不具有灵活性。而且这类软件售价昂贵。

使用工具迁移并配以编码的迁移方式,是在迁移大量有效数据时使用已经成熟的商业数据迁移工具ETL进行数据迁移。并针对某些特定的数据不能使用工具的采取有效的补充。但是这种做法虽然解决了迁移时候工具软件不灵活的问题,但是需要配以软件开发人员,并使他们了解业务进行开发,势必更加的增加了预算开支。这种方法适合大型数据内容分类较多、较为复杂的项目,且该项目有着足够的预算。

完全采用独立开发程序进行迁移方式,是不使用商业的成熟迁移软件,完全自主的组建软件找到软件工程师根据业务需要进行数据迁移的开发。这种方法适合中小企业的项目,数据并不是十分庞大复杂,但是也具有一定的迁移难度和零活性。这种方式更加符合我国的国情,我国中小企业较多,随着商业信息化力度的加大,也有信息系统的升级换代和历史数据保存问题,同时中小企业的预算开支并不宽松需要一种经济实惠的迁移方案,在这里采用自主开发方式有着积极的意义。

4 数据迁移质量分析

对数据迁移的质量进行分析,做法是对数据迁移后的系统中的数据进行校校验,以此来判断新的信息系统能否正常工作,达到预期的设计目标。否则更换后的系统反而没有原先的系统有效性强,不仅浪费了人力、物力和时间,还影响到了以后的商业活动得不偿失。所以有必要认真的做好迁移后的质量分析工作。当然进行质量分析的主要做法也有两种方式:第一种是编写有特定目的的检查代码进行分析,第二种是使用已经存在的数据质量检查工具进行分析。当然数据迁移以后的数据质量分析是与迁移前数据质量分析在检查指标和校验目的上有很多相似之处,包括分析过程也是包括完整性分析、一致性分析、记录数据的数量分析、异常数据分析等几项,但是由于目的有所区别所以也需要特别认真对待。

5 总结

本文主要从理论层面分析了数据迁移中数据的特点、分类,对数据迁移的过程中的各个环节包括数据迁移的方案选择、数据迁移的实施方法、数据迁移后的质量分析等进行了研究,为以后的研究和试验工作方案的选择奠定了基础。

参考文献:

[1] 张玲.数据库迁移测试系统的设计与实现[D].大连:大连理工大学,2005.

[2] 燕紫.ERP软件产品升级过程中数据迁移的分析及实现[D].大连:大连理工大学,2007.

[3] 刘天时,孟东升.信息系统数据迁移方法研究与应用[J].西北大学学报:自然科学版,2006,36(1):10-14.

[4] 刘艳梅.基于COM/DCOM组建标砖实现异构数据库的联合使用[D].北京:北京理工大学,2003.

[5] 罗林球,孟琦,李晓.异构数据库迁移的设计和实现[J].计算机应用研究,2006,12(1):233-238.

[6] 余秋明.异构数据库间数据迁移[D].南昌:南昌大学,2009.

[7] 刁兴春,严浩,丁鲲.异构数据转换关键技术的实现[J].计算机工程,2008,34(17):42-43.