首页 > 范文大全 > 正文

重大事件网络信息资源永久保存技术初探

开篇:润墨网以专业的文秘视角,为您筛选了一篇重大事件网络信息资源永久保存技术初探范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:针对重大事件网络信息资源永久保存问题,本文主要从信息收集、选择和分类,信息安全持久性存储以及信息再现三个方面进行阐述,提出了相应的解决思路和方法。

关键词:信息资源;云存储;数据持久性;可靠性

0 引言

所谓网络信息资源是指以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。据统计,1998年Google搜索引擎索引的网页数为2600万,2000年达到10亿,2008年则高达10000亿。可以说,网络信息已经成为当今社会一种最为重要的资源表现形式。美国Lyman教授曾指出,作为文化产品的网络已经成为最大的信息资源集合。从某种程度上讲,网络信息资源是我们这个时代和社会的见证。如果不对其进行保存,我们将会失去对时代和社会的记忆。

一方面,网络信息资源可以通过文本、图形、图像、语音和视频等多种形式进行呈现。另一方面,网络信息资源与生俱来的具有易共享、易传播等特点。因此,它具有其它资源形式无可比拟的优点。然而,由于网络环境的动态性,这使得相比其它载体形式的信息而言,网络信息资源更脆弱,更容易遭到破坏。Internet Archive的创始人Brewster在1996年就曾估计,网页产生75天后就会消失。美国数字信息基础架构和保存项目的报告更是指出,网络信息的平均寿命为44天。可以说,我们正在失去网络上许多有价值的信息资源。

纵观国内外的研究和发展现状可以发现,现有针对网络信息资源保存的研究主要由国家图书馆、档案馆等机构进行,其保存的资源对象主要是具有学术研究参考价值的文献资料,所采取的策略则主要从立法、技术、经济机制和责任体系等方面进行展开。目前,国内外尚且没有专门针对重大事件的网络信息资源永久保存问题进行研究。然而,重大事件不仅是社会关注的热点,更是现代人们生活中不可或缺的重要组成部分。如,北京奥运会、上海世博会、福岛大地震、利比亚空袭、南海和纷争等,所有这些事件无一不引起了众多关注,并对人们的生活产生了重要的影响。

从某种程度上讲,保存重大事件的网络信息资源不仅是为后世保存现在的文化遗产,而且也能满足当前人们的研究和查考的需求。因此,针对重大事件网络信息永久保存问题进行研究,无论是对当今还是后世都将具有十分重要的现实意义和理论意义。本文将从技术角度出发,针对网络信息资源永久保存问题进行初步探讨,为今后的研究奠定一定的基础,起到抛砖引玉的作用。

1 国内外相关研究工作

自上世纪90年代以来,人们已经逐渐认识到保存网络信息资源的必要性和紧迫性。特别是以国家图书馆和档案馆为代表的保存机构,更是纷纷兴起了针对网络信息资源保存的各种研究。

1996年,澳大利亚国家图书馆发起了保护和存取网络信息资源项目PANDORA,主要目的是为了建立一个具有选择功能的联机出版物档案系统。在此基础上,制定一个保护和存取澳大利亚电子资源的政策和程序。1997年,美国国家图书馆开始进行网络信息保存试验项目Minerva Prototype。该项目的主要目标是为解决网络信息的选择和收集方面的实际问题提供一个实验原型,从而为运行大规模的网络信息保存项目提供指导和经验。同年,丹麦、挪威、芬兰、冰岛和瑞典5个国家的国家图书馆联合进行一项名为Nordic Web Archive的项目,其目标是“通过北欧几个国家图书馆在技术和方法上合作,保存北欧的网络资源,以便为用户提供公共访问和研究服务”。1998年,荷兰国家图书馆联合8个欧洲国家图书馆、1个国家档案馆和3家出版商,共同推出了网络化欧洲存储图书馆项目。其主要目标是建立欧洲网络化存储系统的基础架构。英国国家图书馆于2002年发起组织了一个名为Britain on the Web的网络信息保存项目。此外,法国、德国、新西兰和日本等也都开展了各自的网络信息保存的实验性项目。

在国内,针对网络信息保存的研究起步相对较晚。2004年,中国国家科学图书馆推出了网络信息资源保存试验项目WICP(Web Information Collection and Preservation),其主要目的是向公众提供数据存取和研究服务。然而,由于其并非专门针对重大事件的网络信息资源保存问题展开研究,因此在某些方面尚未涉及。

2 重大事件网络信息资源永久保存机制

2.1 网络信息资源保存机制

如图1所示,为了实现网络信息资源的永久保存,本文所采用的机制主要包含信息收集、选择和分类,信息安全和持久性存储以及信息再现三个方面。有关具体内容将在下节进行阐述。

2.2 信息资源的收集、选择和分类

信息资源的收集是信息保存的前提条件。由于网络信息资源的海量、复杂、分散、动态更新及指数增长等特点,这使得传统的人工收集方式已不再适应,迫切需要通过数据采集工具(如:WebClawer)自动收集网络信息资源。

全面采集又称总括性采集、自动性采集,主要利用机器人、爬虫等网络搜索工具来自动进行。比如:爬虫程序把“爬”过的网络文献的每个页面都“抓”到服务器中,并且自动管理。它首先定位一个节点,以此节点为起点,如果遇到超级链接就爬行下去,如此继续,就在服务器中存储了大量的网页。最后,再通过程序对抓取的页面进行扫描分析、建立索引。全面采集的优点是成本低,不需要大量的资金和技术投入,但是由于数据量非常庞大,内容和质量无法保证,而且事实上也不能做到真正的“全面采集”。全面采集还涉及有关法律问题,由于采取自动化方式收集信息,因此不可能征求全部信息版权所有者的许可,从而给相关纠纷的产生埋下隐患,也使信息采集者面临法律风险。

此外,由于网络数据量非常巨大,且呈爆炸性增长趋势,加之许多不相关的信息充斥其中,因此需要对其进行选择过滤。在此,可以根据资源的受关注程度的高低来决定是否对该网络信息资源进行选择过滤。最后,如何对诸多网络信息资源进行分类是为后续提供数据存取服务的保障。这里,可以借鉴粗糙集理论对所收集的信息资源进行分类。

2.3 信息资源的安全持久性存储

网络信息资源作为信息资源的一种,其保存具备信息资源保存的共性。保存都是基于光、磁等媒介设备,信息稳固在载体上是信息得以长久保存和持续交流的必要条件。由于网络环境的动态性,这使得网络信息资源可能会遭受诸如意外断电、存储介质故障、黑客攻击等破坏。因此,为了确保信息在网络环境下能够高效、持久地存储,就必须设计良好的数据存储机制。

云存储是信息存储领域当前的热门技术,它是通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统,因此可以满足网络信息资源日益增长的海量存储需求。

在提高数据的可靠性方面,可以采用完全副本或纠删码等数据冗余方法。这样,当单个文件损坏时,可以对原始数据进行恢复,实现数据持久性存储。同时,还可根据信息资源访问频率的高低,自适应地调整存储策略和数据分布机制。例如,对经常访问的网络资源,可以采用完全副本方式进行数据冗余,并将其存放在高性能、高带宽的服务器节点上;反之,则可采用纠删码方式将其存放在大容量存储设备。

2.4 信息再现

对于历史信息资源的再现,一方面需要计算机硬件设备的支持,另一方面同时需要软件系统的支持。例如,如果要显示某个网页资源,可能它必须运行在一个基于32位的操作系统平台之上。那么,未来要再现该信息资源时,就必须提供必要的软件系统支持。

3 结束语

重大事件网络信息资源的永久有效保存,功在当今,利在后世。在此,笔者建议有关部门和研究工作者应该从思想上、行动上,以及从立法、技术、经济机制和责任体系等多方面切实做好这一工作,为我国的信息资源保存工作作出应有的贡献。

参考文献:

[1] Peter Lyman. Archiving the World Wide Web. http:///web/, 2002.

[2] Mills R. Preserving the Past for the Future: The Importance of Archival Information in Forestry. 2006.

[3] 赵俊玲.守护E时代的记忆——网络信息资源保存研究[M].北京: 北京图书馆出版社,2007.

[4] Moghaddam G G. Preserving Digital Resources: Issues and Concerns from a View of Librarians[J].Collection Building, 2010, 29(2):65-6.

[5] 陈力,郝守真等.网络信息资源的采集与保存——国家图书馆的WICP和ODBN项目介绍[J].国家图书馆学刊,2004.

基金项目:江西省自然科学基金项目2010GQS0165,江西省教育厅青年科学基金项目GJJ11249