开篇:润墨网以专业的文秘视角,为您筛选了一篇基于磁盘的备份恢复在数字图书馆中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
【摘 要】本文介绍了基于磁盘的备份恢复三种解决方案,并通过实例将其中两种方案用于数字图书馆的建设中,对数字图书馆关键性系统建设具有一定的现实指导意义。
【关键词】磁盘阵列;备份;恢复;数字图书馆
1.引言
在二级存储模型里,备份恢复通常使用的是自动磁带库和磁带;但是在多级存储模型里,就会有多种的备份恢复的方案,并且解决了很多基于磁带以及磁带库的备份恢复方案中的问题。基于磁带的备份恢复存在以下的问题。
(1)备份效率低――通常磁带备份的备份粒度是设备级或文件级的,并且磁带只能采用顺序读写的方式,因此,虽然自动带库可以采用多台带机同时进行备份,表面上看链路通道很宽,但是实际上单台服务器的备份速度还受限于服务器的输出能力,因此总体来看其性能并不高,效率也非常低下,而且会浪费许多的空间。并且一台服务器的数据分散在多台带机上进行备份,也带来了管理的复杂度。
(2)恢复速度慢、不可靠――由于无法在备份的时候把数据并行地备份到多台磁带机里,即不能把数据并行备份到多盘磁带里,因此多台带机并不一定能够提高恢复的速度,单个文件或文件系统的恢复往往还是只能通过同一台磁带机来恢复,因此速度仍然很慢。同时,由于磁带的不稳定性,并且没有类似RAID一样的有效手段进行保护,许多时候恢复往往无法保证能够正确地完成[1]。
基于ATA磁盘的近线存储和基于磁带的近线存储相比较有以下的不同:
(1)读写访问方式不同――基于磁带的备份恢复采用的是磁带作为介质,其数据采用了顺序读写的方式。而ATA磁盘的备份恢复是采用磁盘作为介质,读写方式是随机读写方式。
(2)数据访问有效性――ATA近线存储采用随机读写方式,而自动带库采用的是顺序读写方式,自动带库每次读写都需要执行基本的几个步骤:倒带倒头,进带定位,读取数据。因此,自动带库需要花费更长的时间才能读取数据。同时,自动带库没有办法修改数据,对数据的任何修改都会带来后续数据的连续改动甚至不可访问。
(3)数据访问的并发性――自动带库的数据访问受限于带机的个数,而且同批数据的访问也无法并发于多台带机,但ATA近线存储可以把数据条带分布在多个磁盘上并发访问,从而提高访问的速度。即使有软件能够实现将数据条带在多台带机上运行,由于磁带机的故障率远高于磁盘,事实上这种带机条带化在实际上是不可行的。
(4)数据访问的随时性――如果磁带离开了自动带库,数据就无法被随时访问,必须由人工加载后才能访问。
(5)管理的复杂性――磁带的保管需要科学的方法及人工干预。对磁带的分类需要一个好的方法,比如采用条码加字母数字的编号等;磁带需要定期被访问一下,以防数据因介质的老化而丢失等问题。
(6)数据的可靠性――采用磁盘的方式,数据可以采用多种检错、纠错的措施来保证数据存储的可靠性,比如像NetApp的磁盘采用了先进的BCS介质级校验措施,同时还配备了独特的RAID DP磁盘级保护措施,来防范同一RAID组任意两块盘任意时间发生故障。而采用自动带库,却缺少丰富的检错和纠错手段。目前,有的技术可以多台磁带机之间实现RAID,但在实际应用上是不可行的。
2.基于磁盘的备份恢复解决方案
近年来在ATA磁盘的价格大幅下降后,首先想到了利用ATA产品来完善备份恢复的解决方案。并在短短的几年里,ATA磁盘技术由最初的PATA发展到了SATA,并且SATA技术还在发展。而利用ATA磁盘的二级近线存储的应用范围也有单一的备份恢复解决方案增加了经济容灾、分类归档和法规遵从等多种解决方案。我们就以下几种典型的基于磁盘的备份恢复做一下介绍。
2.1 传统型磁盘备份恢复
传统型磁盘备份恢复也是基本不改变任何现有环境的一种基于磁盘的备份恢复的解决方案。业内也对这种方式称为“Disk Staging”。
在传统型磁盘备份恢复的模型里,近线存储前无需增加VTL服务器,近线存储本身就可以充当备份的目的设备。这主要是要求备份软件可以支持把数据目的设备配置成一个文件或目录,以普通文件的方式来记录备份的影像;而不是一个流式文件,必须把数据目的设备配置成流式磁带机。现在绝大部分的备份软件都支持这样的配置。
采用传统型磁盘备份恢复的模型,具有以下特点:
(1)基本透明地集成进现有的环境,而无需作太大地改动。备份的影像不是一盘磁带,而是一个预先定义长度的文件。
(2)需要确认备份软件支持目的设备配置成普通文件或目录的方式。
(3)属于文件增量型的备份方式。
(4)由于采用RAID对ATA磁盘设备进行保护,因此,如果不是规定限制,可以适当减少备份的影像数量,从而和传统机械自动带库相比需要较少的空间。
2.2 先进型磁盘备份恢复
采用传统型磁盘备份恢复最大的优点就是对现有的备份恢复策略及实施影响不大。但是其缺点也是比较明显的[2]:
(1)空间消耗大:产生空间小和大的根本原因是由于两者执行的都是文件级增量的备份模式。文件级锃亮的备份模式无论数据改动大小,哪怕仅仅是一个字节,也需要将整个文件全部备份下来。这样对于增量备份和差量备份都会带来比较大的空间消耗。即使是全量备份,一样的两个版本文件,同样需要两份空间,无法利用一份拷贝保存多个版本。因此传统型磁盘备份恢复对空间的消耗是非常可观的。
(2)无法直接恢复:传统型磁盘备份恢复,其备份的数据都是备份软件特定的格式,无法直接访问,并且需要相应的索引库来进行辅助索引的。因此,在恢复的时候,首先需要通过索引库的检索,然后需要把相关的文件先恢复,最后才能被访问。
(3)实际上无法实现远程集中备份:虽然备份软件支持远程备份的功能,但是,由于远程站点和数据中心的链路带宽远远支撑不了文件级增量备份的模型,因此,实际上远程站点要想实现集中备份到数据中心,必须寻找新的备份模型。
采用先进型磁盘备份恢复的解决方案,具有以下特点:
(1)空间消耗大大减少:在二级存储上多个时间点的备份拷贝共享同一份基准数据,相差的仅仅是改动的数据块,因此这种数据块级增量的备份方式比文件级增量的备份方式消耗的空间要小的多。
(2)备份拷贝可以直接访问:和需要备份软件先恢复再访问的模式不同,先进型磁盘备份恢复的备份拷贝可以通过相应的时间点进行直接访问相应的拷贝。因此,对于用户误删除、病毒感染、黑客攻击等逻辑灾难,用户可以无需系统管理员的协助就能进行恢复;当一级存储发生灾难时,还可以切换到二级存储,实现经济容灾;这些拷贝还可以作一些增值的分析应用。
(3)可以实现远程集中备份:由于传递的是有效改动的数据块增量,因此对链路的需求不大,利用先进型磁盘备份恢复可以把多个远程站点的数据集中备份到数据中心,在进行磁带备份,这样可以降低远程站点的维护人员的素质要求,优化企业的系统架构,降低整体拥有成本。远程集中备份需要注意的技术难点出了备份外,更重要的是恢复,对此NetApp有完整的解决方案。
(4)可以实现经济容灾:由于保存在NearStore上的备份拷贝是可以直接访问的,因此,当发生环境灾难时,客户端可以失效切换到二级近线存储,继续工作,同时在后台进行数据恢复。这其实已经把备份的概念拓展到了容灾的领域,是新型“经济容灾”的一种实现模型。未来NetApp还会推出一种“按需优先恢复”来进一步完善数据恢复的解决方案。
2.3 移动式磁盘备份存储
采用磁带备份有一个特点是磁带可以离线异地保存、以防范环境灾难。通常采用基于磁盘的备份方案很难做到把磁盘像磁带一样离线异地保存。这里需要磁盘系统对重新上线的磁盘能够识别,并且把保留在里边的数据读取出来,否则离线后数据就无法还原了。
这种磁盘物理位置的无关性使得磁盘可以被离线后取下,并异地保存,一旦发生灾难,可以把这些磁盘安装上另外一个NetApp存储系统上,并上线后迅速地访问产品上备份数据。这样磁盘备份也拥有了相应磁带的特征,成为了移动式的磁盘备份恢复。值得指出的一点是,离线的磁盘无需做详细的标记,重新上线后也无需讲究磁盘需要的具体顺序或槽位。这样大大简化了管理的复杂度。
数字资源的发展使得图书馆对于存储的备份和恢复需求发展迅速。在数字化信息爆炸式增长的情况下,海量存储是对数字图书馆的建设必不可少。存储技术和存储设备是构造存储基础设施的重要组成部分,而存储基础设施又是构造现代化图书馆,特别是数字图书馆的重要组成部分,以存储为中心将成为数字化图书馆发展的必然趋势。
我馆目前采用两台IBM H85系列小型机与IBM 7133磁盘阵列用作数字图书馆核心业务平台――汇文文献信息服务系统的硬件支撑平台,并且安装了IBM AIX5L操作系统,该操作系统是能够满足关键业务和Internet应用的,稳定的,并具有高可扩展性、高安全性与高可靠性的UNIX操作系统。在IBM AIX5L操作系统上安装数字图书馆核心数据库Oracle8.16系统,每天晚上在全馆闭馆以后,采用上述的移动式磁盘备份存储解决方案,将Oracle8.16中的图书馆核心数据进行增量备份,并且保存在不同地方,进行离线异地保存,以防范环境灾难,保证数字图书馆核心数据的绝对安全性和可靠性[3]。
我馆镜像电子资源系统采取的是三套相对独立的磁盘阵列系统,分别是IBM FastT200,HP Eva5000以及最新采购大恒磁盘阵列系统DS6324DF,由于每套磁盘阵列系统采购的时间不尽相同,但是通过配置冗余的光纤交换机,组成标准的SAN集中存储架构,考虑到与我馆之前IBM FastT200和HP EVA5000磁盘阵列的兼容性,挂接入原有SAN系统,不改变原有系统架构[4],参见拓扑图1。采用上述的先进型磁盘备份恢复方案,将核心电子资源数据(包括中国CNKI学术文献总库、维普中文科技期刊数据库、万方数据知识服务平台、国务院发展研究中心信息网)进行备份,以防范数据丢失,保证图书馆为读者提供24*7的不间断服务,为学校的科研和教学提供强有力的保证(见图1)。
4.结语
基于磁盘的备份恢复方案,不仅使数字图书馆核心业务系统关键业务数据得到了更加完善的保护,保证了数据中心的高可用性,而且更有利于帮助数字图书馆建成一个以读者为中心,真正体现以读者的需求取向和需求心理为导向,为读者提供及时、准确和高质量的服务的集中式数字图书馆业务系统。
参考文献:
[1]王亚楠.刘天时.肖飞.具有高可靠性的磁盘备份与恢复系统[J].西安石油大学学报(自然科学版),2004(3).
[2]陈策明.浅谈近线存储在硬盘播出系统中的应用[J].现代电视技术,2004(8).
[3]余和剑.论图书馆数据库的备份与恢复机制[J].情报探索,2005(3).
[4]黄燕.图书馆联盟下的数据容灾研究与构建[J].新世纪图书馆,2012(6).
作者简介:陈斌(1978―),男,2003年毕业于武汉理工大学,硕士研究生,馆员,现供职于江汉大学图书馆,主要从事信息资源管理、图书馆自动化系统等研究。