首页 > 范文大全 > 正文

实现DC元数据与档案元数据EAD的映射

开篇:润墨网以专业的文秘视角,为您筛选了一篇实现DC元数据与档案元数据EAD的映射范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:在对DC和EAD两种元数据进行介绍和比较分析的基础上,给出二者相互转换的映射表,针对映射中在结构、应用和语义等方面产生的差异建立映射规则,并通过制订基于DC的电子档案元数据规范、善用DC修饰词、确定DC为我国数字档案馆界元数据标准等措施解决转换中所产生的问题。

关键词:DC 元数据 EAD 电子档案 映射

中国分类号:G250.76 文献标识码:A 文章编号:1674-098X(2013)01(a)-0-03

随着计算机和互联网的普及,来自档案馆、图书馆、博物馆及其他机构的各种数字档案资源如档案、手稿、照片、古籍、个人论文日益增多,大量的电子档案给传统的文件管理方式和理念带来了不小的冲击,如何利用信息技术实现电子档案的科学管理也成为档案界的研究热点。随着元数据技术的发展和应用,利用元数据实现对电子档案的有序管理已逐渐为档案界所接受[1]。

来自于不同软件系统的电子档案常常具有不同的著录格式,它们互不兼容,从而导致不同数据库之间根本无法互相访问和检索,对普通的档案馆来说难以实现无障碍的利用与共享。目前,大多数的研究项目对于分布、异构的数字档案资源只是提供基于互联网的网络链接与检索共享,尚未实现元数据级的互操作,因此无法提供专业化的深度增值服务[2]。解决这一问题的途径之一就是实现元数据的互操作和格式转换。该文将探讨EAD与dc这两种目前应用最为普遍的元数据之间的映射,具备较大的实用意义。

1 DC元数据与EAD

1.1 DC元数据及特点

DC(Dublin Core)即都柏林核心元数据,是目前网络信息资源组织最为通用的元数据格式。DC最早由美国OCLC发起研究,是“用该元素集描述任何网络信息资源,并足够简单以至任何作者无需专门培训即可创建自己文件”的元数据。它由15个基本元素组成,分为三个广为认可的大类,内容描述类包括题名、主题或关键词、资源描述、来源、语种、相关资源和时空范围。知识产权类包括责任者、出版者、其他责任者及权限。外形描述类是指对资源外形特征信息的描述,包括日期、资源类型、资源形式和资源标识。

DC的特点包括以下几方面。

简易性:只有15个元素,而且通俗

易懂;

通用性:不针对某个特定的学科或领域,支持对任何内容的资源进行描述。增加了跨学科的语义互操作性的可能;

可重复性:其所有元素都是可重复的,解决了多著者与多出版者等重复元素的著录问题;

可扩展性:它允许资料以地区性规范出现,并保持元数据的一些特性,以便日后有扩充的余地;

可修饰性:对于需要详细著录的资料,引进了DC修饰词。它遵循向上兼容原则,在范围上对未修饰词的语义进行限定,在深度上对未修饰词的语义进行延伸。

1.2 EAD及其特点

EAD的全称是Electronic Archival Description,即电子档案著录,主要用于著录档案和手稿资源,包括文该文档、电子文档、可视材料和声音记录。它开发于1993年加州伯克利大学的一个研究项目。它是以通用标准语言(SGML)和扩展标记语言(XML)文件类型定义(DTD)的形式存在的[3]。EAD元素集定义有3个层次:EAD头标,著录档案的产生、修订、出版、发行等信息;前事项,著录档案题名页内容;档案著录,是对档案内容及其相关信息的具体描述,包括文件内容、上下关系及增补信息等。

经过多年的研究和发展,EAD受到了档案界和图书馆界的普遍拥护,是美国档案协会的成员们以及一些欧洲国家的档案馆主要使用的元数据,也已成为在世界范围内获得广泛应用的电子档案著录标准。这是由于ead具有以下特点。

使用了标准通用置标语言(SGML),SGML是电子文献处理与交换的国际标准,用EAD著录的电子档案可以提供网上的信息共享和检索。

不依赖于任何的硬件和软件平台,不需经过任何的转化,在Unix操作系统、Microsoft Windows和Macintosh等环境下都可以很好地被识别。

具有伸缩性,同一部文献既可选用一些简单的标识符著录,也可以选用复杂的等级化的标识符著录。

使用EAD既可以形成新检索工具,也可将已有的检索工具转化为EAD的编码的机读格式。转化时可能要稍作改动或重排,但不需要大量的编辑。

检索功能强。EAD以查询语言(QL)为基础,除了具有一般的检索功能,如布尔检索、截词检索、近似检索以外,还可以在目录中查找单个款目和离散的数

据项。

应用范围广,EAD既可用于手稿,也可用于技术革新、艺术与雕塑、医学、工业等领域的科学资料。

1.3 DC与EAD的比较分析

不难看出,DC和EAD的结构都简单灵活,具有很强的可兼容性、可扩展性和可互操作性,这些特性都使得这两种元数据得到越来越多国家的重视并被广泛应用。对在著录和信息揭示深度上看,DC对资源主题的揭示过于简单,对著录对象的描述深度不够,不能进行专指度较高的检索;EAD则著录详尽,适用范围广泛,检索途径多样[4]。

综观DC与EAD的结构特点和应用性能不难发现,DC的最大特征就是简化的语法系统和有限的元素数量,因此它更具有简易性和亲和力,适用于广泛的资源描述和利用群体;EAD则更为专业化,适合档案专业背景,提供了详尽的资源描述和更多的检索入口,更适用于资源的深度描述和特定学科领域内的深入交流[5]。

2 DC元数据与EAD的映射

2.1 DC与EAD映射表

该文给出DC与EAD的映射表如表1。

2.2 建立映射规则

建立了以上映射表并不能直接完成DC与EAD的映射与转换,仍需针对两种元数据的多种差异建立映射规则,从而使转换完成得更为完整准确。

2.2.1 解决结构上的差异

在映射表中多个元素均为一一对应,但由于两种元数据的结构差异,就产生了源元数据和目标元数据元素间的一对多、多对一或无对应关系的情况出现,如DC的责任者和其他责任者两元素与EAD来源元素的对应为多对一关系,DC的来源、相关资源和版权管理等元素在EAD中则找不到与其相对应的元素。针对这些情况,映射规则必须规定在什么情况下将进行相应转换、如何转换,对无对应关系的元素如何进行转换处理,等等。

2.2.2 解决应用上的差异

由于DC和EAD的结构均灵活多变,存在多种必备和可选元素、可重复与不可重复元素、有无子元素等多种情况。此时映射规则须针对具体情况,做出恰当的规定,如明确规定源元数据必备元素的范围、确定源元数据多个重复元素的可选择性、对一方元数据中子元素缺少对应元素时如何处理,等等。

2.2.3 解决语义上的差异

针对二者语义、数据类型和形式、取值范围不一致等情况做出明确规定,尽量消除差异,确保转换的规范统一。

3 存在问题及解决办法

通过理论研究和多个国家的转换实验,我们发现对DC和EAD进行转换的主要困难还是在于EAD的复杂结构与DC元数据过于简单的矛盾,表现为将EAD转化为DC之后,难以在同一个全宗的档案资料之间重新建立链接,或者难以对由不同数据库收藏的、由同一个人或机构产生的资料之间重建链接;有时会丢失原EAD记录中的上下文信息,或者转换后的著录不够清晰,甚至出现错误指示等[6]。

以上问题的解决措施有以下几方面。

3.1 制订基于DC的电子档案元数据规范

元数据规范(也称元数据标准)是描述某类资源的具体对象时所有规则的集合。一般包括完整描述一个具体对象时所需要的数据项集合、各数据项的语义定义、著录规则和计算机应用时的语法规定。

通过制订针对电子档案的元数据规范,我们可以解决DC诸如对著录对象的描述深度不够、不能进行专指度较高的检索、与原EAD文件结构的对应不够准确等方面的不足。制订能够描述或标识电子档案内容、属性、外观特征及层次结构的描述元数据规范和管理元数据规范,从元素、语法、句法等方面对检索属性集做出规定,在保证数据质量和检索效果的基础上做好检索点设置,提高转换后文件对原文件相互联系的反映准确程度,有效表示转换后文件的可选项等等,确保转换后的元数据质量。

3.2 善用DC修饰词

由于简单DC的15个元素只限于描述信息的单一层次,而EAD是具有等级结构,特别是在EAD内容描述部分的从属部分(dsc)中,可从c01到c12多次重复,并且这些从属部分之间存在密切关联,要靠简单的DC元素来充分表达档案描述之间复杂的层级关系确有一定难度,但是,通过引入适当DC修饰词的复杂DC将能弥补这一缺憾。

目前DCMI(Dublin Core Metadata Initiative,都柏林核心元数据计划)确立了两类修饰词,即元素修饰词和编码体系修饰词[7]。随着各类团体遵从dumb-down(向上兼容)原则提出更多的修饰词,在经过DCMI应用委员会审核批准后推荐给大家使用,由此逐渐形成一个修饰词的大家族。相信不久的将来,通过档案工作者的不懈努力,针对档案专业领域的修饰词也会应运而生,通过多个修饰词的分级复用会较好地解决以上

问题。

3.3 确定DC为我国数字档案馆界的元数据标准

目前EAD在我国的应用仅限台湾,大陆还只处于理论研究阶段[8];而中文DC的研究与开发则已经从早年的实验阶段步入实用阶段,已设计并制订了期刊论文、电子图书、古籍、家谱和地方志等多种元数据规范,而且使用范围日趋广泛,逐渐为越来越多的图书馆所采用。

数字图书馆的成功范例为数字档案馆做出了榜样。希望我国档案界尽早确立DC为行业元数据标准,加强数字档案馆建设中元数据利用的一致性,少走弯路,尽早实现中文档案信息资源的共建和共享,提高我国档案界的自动化和标准化水平。

参考文献

[1] 张正强.论中国电子档案著录标准化的发展方向[J].图书情报知识,2004(5):35-38.

[2] 何小菁.数字档案馆元数据编制研究[J].图书情报工作,2004(5):93-95.

[3] 宋雪雁.档案元数据(EAD)著录原则探析[J].档案学通讯,2009(6):

57-59.

[4] 王萍,宋雪雁.EAD、DC、TEI著录实例及其比较分析[J].图书情报工作,2006(12):79-82.

[5] 王小丽,王芳.国内外数字档案馆元数据标准体系比较研究[J].情报科学,2007(3):382-389.

[6] 王芳,王小丽.基于OAI协议的数字档案馆元数据互操作问题研究[J].现代图书情报技术,2007(3):18-24.

[7] DCMI.DCMI Metada Terms[EB].(2010-10-11)http:///documents/dcmi-terms/.

[8] 江薇.关于我国档案元数据格式的建议[J].兰台世界,2008(4下半月):24-25.