首页 > 范文大全 > 正文

数字仓储库的发展

开篇:润墨网以专业的文秘视角,为您筛选了一篇数字仓储库的发展范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要]综述数字仓储库的发展现状,归纳总结仓储库的类型和内容特点,详细分析仓储库建设过程中的典型用例,重点对出版商用例和多机构用例的数据处理、服务管理和效果进行归纳和分析,详细说明其建设过程和方法。并结合仓储库管理者的意见和仓储库目前存在的问题,提出下一步仓储库建设的重点和发展的方向。

[关键词]数字仓储库 仓储 用例分析

[分类号]G25

1. 引言

数字仓储库(Digital Repositories)相对于其他数据库有自己的特点:仓储内容是由内容创建者或拥有者提交数据库的;仓储内容既有内容又有描述内容的元数据;系统具有基本的PUT、GET、SEARCH、ACCESSCONTROL的功能;仓储库必须是可持续的和可信任的并被很好地支持和管理。数字仓储库在近年来获得了长足的发展,包括以某个机构或校园为基础的机构仓储库(Intltutional Repository),以某个或某些学科为基础的学科仓储库(Disciplinary Repository)和跨国跨学科的综合性仓储库(Aggregating Repository)快速发展。据OpenDOAR(Directory of Open Access Reposito―ries)的最新统计,2010年7月登记的可开放获取的仓储库数量达到了1650个,其中机构仓储库占到了81%。而通过DRIVER-Digital Repositories Infrastruc-ture Vision for European Research项目可搜索到超过2500000篇的科技论文、学位论文和会议报告等文献,DRIVER项目定期收割33个国家的249个仓储库的元数据并提供集成的检索。据Bo-Christer Bjork等人的研究,2008年研究论文的20.4%都是可以开放获取的,其中8.5%可以在出版商的网站上获取,11.9%可通过搜索引擎得到免费的原文。数字仓储库在开放获取中扮演了重要的角色,本文试图分析数字仓储库的发展现状和相关的项目研究情况,发现其运行的关键因素,并探索可持续发展的策略。

2. 数字仓储库的类型和内容特点

数字仓储库包括多种类型,由研究型学术机构建立的称为机构仓储库,收集、保存和分发一个机构产生的数字资产,包括学位论文、预印本、研究论文和技术报告等文献类型,也包括一个机构的管理性文档。各国大学和研究机构都先后建立了自己的机构仓储库。机构仓储建设典型的例子是加利福利亚大学数字图书馆的eScholarship Repository。建立在专门的研究部门或实验室的仓储库称为Departmental Repository。以某个或某些学科的资料收藏和保存为基础的学科仓储库(Disciplinary Repository),由政府或某科学组织来管理和维护,其中有影响力的学科仓储库有arXiv,仓储数学和物理学方面的论文和报告;PubMed Central仓储生物医学方面的论文,CiteSeerX仓储计算机和信息科学方面论文和报告。在一个国家层面上建立的仓储库称为国家仓储库(National Repository),大英图书馆维护了一个国家的仓储库,提供给没有机构仓储库的组织和研究人员使用。

数字仓储库在原来文献收藏的基础上不断演化,形成了非文献类型的数字仓储库。其中有以数据为仓储对象的数据仓储库(Data Repository),主要收集和保存科学研究中产生的各种数据,包括图表、统计表格、实验数据、测试数据等。例如DataShare是由JISC支持的关于数据仓储库建设的项目。以教学参考资料为主要仓储对象的教学参考资料仓储库也快速发展,JISC支持的Jorum项目收集仓储来自英国高等教育机构创建的教学资料,并根据创建者的授权提供相应的访问。还有专门以地理数据为仓储对象的地理数据仓储库ShareGeo,以演示文稿和讲演视频为仓储对象的Slideshare。各国高校的学位论文仓储库普遍建立。

OpenDoar的统计显示,尽管期刊论文依然是仓储库的主要文献类型,63%的仓储库包括期刊论文,51%的仓储库包括学位论文,但没有正式出版的报告和工作文档也有40%的仓储库收集,其他多媒体资料、图书和教学参考资料也有15%到31%的比例。可以预测将来多种类型的仓储资源会大量增加。也有观点认为仓储库的数据结构也应多元化,包括元数据+对象数据,或者元数据+对象数据指针(如DOI),或者仅仅是仓储元数据。后文还会论述这一问题。

3. 数字仓储库的持续发展

数字仓储库的可持续发展是各个方面都关心的问题,如何设计有效的仓储库建设政策和经济有效的建设策略是当前仓储库建设面临的重大问题。英国数字仓储库的发展得到了JISC基金的支持,2006年和2009年JISC分两期在英国高等教育机构的数字仓储和数字内容基础设施上共投入了约1400万英镑,支持包括仓储支持、仓储研究、仓储联合搜索、Interim Reposi―tory等方面的项目和建设内容,目前在Key Digital Re―pository Activities题目下列有21个基金项目计划和230个支持项目。

仓储库建设的可持续发展问题是仓储库建设者们考虑的一个重要问题,不仅仅是完全依靠项目运作方式维持仓储库发展。其中如何解决仓储库的数据提交效率和效果成为一个关注的焦点。下面的用例分析了仓储库建设各方面参与者角色,试图找到合适的提高仓储效率的路径。

3.1 用例分析

JISC支持的一个小的思想库试图探讨仓储库的运作问题,有来自三个国家的仓储库建设方面的专家组成的名为“Repository Handshake”的聚焦小组,于2009年3月在荷兰阿姆斯特丹开了一个专题讨论会。第一个聚焦的问题为Deposit Opportunities,主要探讨在开放存取环境下半自动提交和呈缴的过程,讨论包括仓储空洞化的危险与如何避免标准和技术的绝对化;评估通过SWORD实现交互的能力,交互过程中的工作流管理;仓储库管理者的角色等。重点考虑其他系统对仓储系统的冲击,包括作者工具、书目索引工具和其他管理工具,如CRIS和REF。如图1所示:

作者要面对至少5个方面的对自己产出的要求。在这种状况下,无论是智力成果的创造者还是仓储库的管理者,都面临多个方面的要求,会让仓储过程本身充满了烦恼。需要认真思考解决方案。

JISC支持的SONEX(Scholarly Output Notificationand Exchange)项目旨在重新明确仓储的对象是学术产出而不仅仅是正式出版的内容,学术信息的传递只需要元数据即可,数据的交换需要双方的互操作和协

商。本文重点确认和分析仓储用例,目的是在不同的应用环境下推动和促进研究产出的仓储过程,也包括如何实现对现有多个仓储库内容的传递和跨库获取的问题,比如如何从大学研究管理系统CRIS Systems获取内容到机构仓储库。分析整个仓储环境中各种可能的用例,确认有效的仓储机会,用例的详尽分析也有助于多种数据库间合作的发展。

下面就是详尽的用例分析和在该用例下部署开展的项目:

・用例1,著者。服务于多个研究机构著者的研究成果,或者研究成果中的多个著者来自不同的机构,在这个用例中,一篇论文按照通常的情况,要在多个机构仓储库中提交仓储,毫无疑问会给著者带来*许多的操作负担。基于这个用例,Open Access RepositoryJunction(OA-RJ)Project主要研究通过方式向多个机构仓储提交成果的机制和应用。该用例不包括单一著者单一机构的情况。

・用例2,管理机构。这个用例主要是大学或研究机构的研究信息管理系统CRIS。在一般情况下,这些用例出于管理的目的,已聚集了研究的产出。这就需要交换研究产出的信息,有几个项目正在集成CRIS和IR,如University of Glasgow和Trinity College Dublin。

・用例3,书目编制者。个人、研究项目组或院系的成果展示,图书馆的研究成果收藏和列表。该方面的成果输出很多,多是用于宣传或项目资助者要求。可与机构仓储库形成数据交换关系。

・用例4,出版者。主要指那些愿意帮助著者将他们出版的全文或全文URI提交到仓储库的出版者。一般是自动完成仓储过程,在这方面的项目有OA-RJProject和European PEER Project。在这些项目中解决提交开放获取的全文和全文的URI。

・用例5,仓储库的管理者。主要指机构仓储库管理者从学科仓储库获得自己机构的学术产出,或者是从其他相关的机构仓储库中获得本机构的学术产出。可通过数据的交换协议完成。

・用例6,研究评估机构。研究评估机构会要求被评估机构提供详尽的研究产出列表,RAE/REF驱动了机构完成本机构学术产出的仓储管理。机构仓储库在研究评估中起着重要作用。

・用例7,其他用例。直接从国际知名数据库,比如WoS或PubMed摄取元数据,之后由作者补充相应的全文。尽管这个过程应包含在用例3中,但因为该过程较为特殊,所以单独拿出来作为一种用例。

应该说详细的用例分析和仓储建设者补充的用例极大丰富了仓储库建设过程中可能的相关者和合作者,笔者参与所做的用例分析纳入了SONEX项目。在此后的实践中每个用例有相应的研究项目来保证在该用例下仓储过程的有效实现。

3.2 重点用例分析

本文首先重点选择分析出版者用例。BioMedCentral和Massachusetts Institute of Technology(MIT)图书馆共同开发了一个应用系统来同步出版BioMedCentral’s Journals中的学术成果到MIT的数字仓储库DSpace@MIT中。这个系统为了保证同步的效果,使用了Simple Web―service Offering Repository Deposit(SWORD)协议,SWORD协议允许机构仓储库接收BioMed Central的200多种期刊中最新出版的论文,不再需要著者重复在仓储库中提交论文。毫无疑问,SWORD极大地降低了仓储的障碍,通过SWORD来仓储是一个标准的过程,可以很方便地传送元数据和全文。图2显示了BioMed Central’s SWORD仓储服务的过程:

在这个过程中,可以看到文章一旦在BioMed Cen―tral Journal正式出版就通过SWORD输入到机构仓储库中,这个过程避免了著者多次重复提交自己文章到不同数据库中的过程。同样地,ISI―WoS也支持通过SWORD协议将机构的篇名文摘信息传送到指定的仓储库。SWORD协议是个重要的协议,如果更多的出版商采用这个协议,无疑将对仓储库的建设具有重大的意义

第二个重点分析的用例是用例1的详细解决方案。OA-RJ项目目标是支持开放的仓储过程,通过建设一个仓储系统来支持对已有仓储数据库的互操作。这个项目着重解决用例1中多服务机构著者和多著者多机构论文的仓储问题以及用例4中出版者开放论文的获取和仓储问题。其中Repository Junction工具获取和判断机构的信息,通过Broker方式将出版者或学科仓储库的相应论文提交到相应作者所在机构的仓储库中。

Broker Service与出版商的数据库、学科仓储库之间使用SWORD协议获取相应的数据,Junction工具判断机构名称时利用了Names项目的成果。OA-RJ工作的流程图见图3。

这个项目的基本工作流程为:用户和内容的发现;获取或摄取数据包(元数据+对象数据);判断数据应仓储到哪个目标仓储库;重新打包仓储相应数据包到目标仓储库;发送成功仓储的消息给仓储库的管理者。在实现发现功能时,Junction工具基于大量的数据源和算法来分析论文和那个仓储库有关。而Broker的功能是根据junction传送的信息从出版商或学科仓储库获得数据并分别送入合适的机构仓储库。数据传送过程中可定制数据格式并通过SWORD协议传送数据。

上面两个项目只是众多支持机构仓储项目中的两个项目,根据初步统计在支持方便仓储和协同方面的项目有20多项,来自英国、美国、德国、荷兰等国。仓储库的建设将在这些项目的支持下走上方便和快速发展的道路。

4. 数字仓储库的发展趋向

在UKCORR-discussion@jiscmail.ac.uk讨论组中,对仓储库的描述和定位有多种多样,其中Dorothea Salo整理的一些意见具有一定代表性。比如美国的仓储库更多是开放的全文,英国更多是服务于研究评估,所以英国仓储库存储了大量的元数据而缺少全文。来自University of Lancaster&Northampton的意见认为因为CRIS系统的数据描述信息不准确,IR必须得做成果列表。Oxford University的意见认为IR过去是为了支持研究评估(RAE2008),现在应更多地注重收集全文。Oxford/Bodleian的意见认为IR的建设动机是数字资源保存,与REF是不同的。University of Warwick的意见认为RAE/REF是支持IR发展的机会。University ofSouthampton的意见认为IR系统应能被允许嵌入REF或CRIS系统。University of Nottingham的意见是RAE/REF和IR应该有不同的发展目标,IR中过低的全文

收集将影响OA的发展。

中国科学院国家科学图书馆大力推动的中国科学院机构仓储库群,强调研究所保存智力成果的责任和科学家共建资源的责任,推动机构仓储库的发展。在仓储方式上也有考虑从其他渠道获取元数据和全文资源。

Confederation of Open Access Repositories(COAR)2010年3月在马德里召开了第一届General Assembly会议(COAR成员单位现在有48家),讨论推出了2010年12月前的工作计划。11个议题中有两个议题是关于数据的协同和交互的,其他包括仓储库的继续推广、最佳实践指导文件、相关技术指引和提供、全球元数据仓库以及与其他设施的合作和协同等。从会议的重点问题看,目前在仓储库建设中普遍关注的问题和趋向,一是重视全文的收集;二是重视成为RAE/REF的工具,重视与CRIS、REF系统形成良好的合作关系,并在某种程度上代替它们成为科研产出展示的工具。

数字仓储库的建设源自开放获取活动,但仓储库在此后的发展中已超越了当初开放获取赋予仓储库的角色范畴,仓储内容从传统的论文发展到教育资源、数据、仓储非正式出版的报告以及开放源码等。数字仓储库的服务也在Creative Commons下具有了新的活力,在教育科研过程中产生的智力成果只要作者授权都可以提供开放的访问和获取。同时仓储库也不仅仅是简单的仓储数据的过程,在有关新的仓储建设项目和研究项目中,可以看出支持建设的重点不再仅仅是仓储技术本身,而更加注重机构的智力成果的管理和长期保存,关注智力成果的管理流程,注重在仓储库中收集各种类型的智力成果并有效保存。仓储库的建设目标有了更多的内涵,比如IR就代替其他工具更多地成为展示本机构的科研产出和研究能力的平台,成为一个机构核心知识资产的管理平台,成为一个机构共享、知识交流学术和科研成果的学术空间。

Lynch C A关于IR的论述今天来看仍然有意义,大学或机构的仓储库是支持本机构数字资产的管理和分发的一套服务,大学或研究机构应承担对这些资产进行长期有效保存、提供管理和获取服务的责任。

仓储库的发展从技术完善走向实践,仓储的对象主要就是原生的各种数字对象。仓储库的发展也将摆脱从单纯文献管理角度出发的仓储建设方式。MichaelBuckland指出的在情报科学上存在两种传统,文献管理传统偏重于文献数据记录的存档、编目等,而计算传统则重点发展数据计算、相关的计算算法和计算过程。在新的时代,仓储库不仅仅是数据记录的管理和存储,也开始偏向于数据计算,UK Repository Search项目应用文本挖掘技术去发现相关的仓储文章。可以预见在仓储库的建设上这两种情报传统将有机融合并向前发展。