开篇:润墨网以专业的文秘视角,为您筛选了一篇科技资源数据库元数据注册系统研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘要:首先介绍了科技资源数据库中元数据标准的分级和互操作策略,根据科技资源数据特点,提出元数据注册系统体系架构。分析并解决了元数据注册系统中的关键技术。研究表明,元数据注册有助于元数据标准管理,促进科技资源数据更好的利用、共享、交换和整合。
关键词:科技资源数据;元数据;元数据标准;注册;解析
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)36-3050-02
Research on Scientific Resources Database Metadata Registry System
YANG Jin-ying1, CUI Er-qiang1, CHEN Wei-hua2
(Department of Computer Science and Information Engineering,Shijiazhuang Railway Institute,Shijiazhuang 050043,China;2.Bohai Oil Vocational College,Renqiu 062552,China)
Abstract: This paper gives a full description of the level and the interoperability methodology of metadata schema in scientific resources database.Then the author propose the architecture of metadata registry system.The author also Analyzes and gives a solution of the important technology in metadata registry system.Research has shown that metadata registry is helpful for metadata schema management and it promotes data use,share,exchange and conformity in scientific resources.
Key words: scientific resources;metadata;metadata schema;registry;parser
1 引言
河北省于2005年启动了科技资源数据库建设项目[1],旨在对现有的科学数据资源进行整合,更好的实现科学数据资源共享。
信息技术的发展趋势是数据信息的标准化。没有基础信息的标准化,对科技资源数据库群开发深层次的资源整合、数据共享和高级服务将是困难重重。元数据理论和技术是实现数据标准化以及数据共享、交换和整合的重要手段。
河北省科技资源数据库已经制定完成了科技资源数据库元数据体系当中的核心元数据标准以及以它为基础的多个面向具体应用的扩展元数据标准。而各种类型的元数据标准常常缺少兼容性的要求。因此,如何实现科技资源数据库中多种元数据标准的相互兼容,进而按照不同元数据标准著录的数据之间能够相互访问和检索成为了目前亟待解决的问题。
2 科技资源数据库元数据标准框架
2.1 科技资源数据库元数据标准分级
科技资源数据库元数据标准按照标准的来源和产生方式可以分为三个等级,如图1所示。
1) 都柏林核心元数据标准 (Dublin Core,DC)
DC元数据术语词表是目前DCMI推广的一套元数据标准规范体系,它是一个动态的、依照一定程序不断扩展的词表,目前,DC元素集由15个元素组成。DC已经被看作是一种国际或广泛遵循的元数据标准,它也是科技资源数据库核心元数据标准中的核心部分,是制定所有其它元数据标准的基础,具有很强的通用性。可以被认为是一种通用元数据标准[2]。
图1 元数据标准等级
图2 元数据注册系统体系架构
图3 提交XML文件注册流程
图5 元数据标准转化过程
2) 核心元数据标准
由于资源的特殊性,目前没有相应的国际标准可以直接应用于科技资源数据库,因此需要根据科技资源数据库资源的特点,以DC元数据标准为基础制定科技资源数据库标准,使其在科技资源数据库范围内具有很强的通用性。
河北省科技资源数据库核心元数据标准是由数据集元数据做主要部分。数据集元数据是一个面向数据集层次的科学数据资源的元数据标准,定义了一组通用的元数据模块和元素。
3) 专业元数据标准
专业元数据标准是针对应用的需求,基于DC元数据标准和科技资源数据库核心元数据标准,设计适合于应用系统的元数据元素集。以农作物资源数据库为例,农作物资源元数据标准就是在DC及科技资源核心元数据标准的基础上,结合农作物信息的具体情况,运用DC和核心元数据标准的扩展原则建立的。
2.2 科技资源数据库元数据标准互操作策略
根据元数据标准的三级结构,科技资源数据库应该能实现两个层次的互操作。
1) 在DC元数据标准层,实现与科技资源数据库以外的系统进行数据交换和共享,目前国际上其它项目大多数都是基于国际标准,因此,通过采用或映射到DC元数据标准,可以方便的与其它系统实现互操作。
2) 在科技资源数据库核心元数据标准层,实现在科技资源数据库内部不同学科、不同资源类型之间进行数据交换。因为该层的元素集在科技资源数据库内部具有通用性,是该学科或该类资源类型中多个应用纲要共同包含的元素的汇集,所以在这一层可实现科技资源数据库内部的互操作。
3 元数据注册系统体系架构
元数据注册系统又叫元数据登记系统(Metadata Registry,简称MR)是对元数据的定义信息及其编码、转换、应用等规范进行、登记、管理和检索的系统。它从元数据的开发、管理、利用等环节为元数据的互操作提供了一个开放式的操作平台。
科技资源数据库元数据注册系统采用四层的体系结构:网络层、信息资源层、核心服务层和界面层。如图2所示。
网络层在逻辑架构中处于最底层,是科技资源数据库元数据注册与使用系统的重要基础设施和物理平台。
信息资源层构建于网络层之上,为核心服务层提供信息资源。
核心服务层在整个框架中起承上启下的关键作用,为信息资源层提供实现各项服务的接口,包括注册接口、浏览/检索接口和映射接口;对界面层提供对元数据进行注册、浏览、检索和映射的服务。
界面层为用户提供用户界面。
4 元数据注册与使用系统关键技术
4.1 元数据注册
在对元数据进行注册时,分为对元数据元素的注册和对元数据标准的注册。在对元数据元素注册时提供两种方式对科技资源数据元数据进行注册,一是在线的对元数据元素及其属性进行编辑,直接注册;二是通过提交元数据元素的XML文档进行注册。在对元数据标准进行注册时,通过提交元数据标准的XML文件进行注册。通过操作已注册的元数据元素及标准,方便对科技资源数据库元数据标准中的元素信息进行增加、修改、删除和更新操作。
根据科技资源数据库元数据标准管理的需要,对元数据的注册流程如图3和图4所示。
在图3中,从客户端提交XML文件到服务器端,服务器端通过DOM[3]解析器,对元数据元素的XML文件进行解析,验证,若验证结构正确,则为解析后的元素分配唯一标识符,并存储到SQL Server数据库中,同时,对XML文件进行重命名,防止上传不同元数据元素而采用相同文件时将原有文件覆盖,重命名后保存到文件系统。
在图4中,客户端通过在线编辑元数据元素及其属性,将元数据元素信息提交到服务器端,服务器端进行判断,若不存在相同元素,则为该元素分配唯一标识符,将元数据元素信息保存到SQL Server数据库同时,将元数据元素信息生成XML文件,并对XML文件进行重命名,防止同名覆盖,同时保存XML文件到文件系统。
由于XML Schema文件采用XML语法,本身也是一个XML文件,因此,对元数据标准的注册流程与对元数据元素注册信息的XML文档注册流程一样。
4.2 元数据标准转换
目前实现元数据互操作的方法很多,普遍采用的一种方法是通过建立映射表来完成,但是这种方法在映射量较大时会出现较大的成本和维护开销[4]。因此,本论文采取基于语义层的映射,在系统内建立一个语义层,先将元数据元素与语义层建立映射关系,这样两者之间的映射就方便许多,维护开销和成本也很小。
在进行元数据标准转化时,首先,系统管理员选取2个有待转换的标准,然后,察看元素语义层映射情况,当标准A中所有元素在标准B中找到对应元素映射,即标准B中的对应元素与标准A中每个元素属于同一语义层。当元素间全部建立起对应关系,则调用系统转化模块,该模块根据元素间关系生成XSLT文件。最后导入XSLT文件,实现元数据标准间的互操作。转化过程如图5所示。
5 结束语
元数据在科技资源数据库中正在发挥越来越重要的作用。针对河北省科技资源元数据标准管理的需要,通过元数据注册系统从管理途径上解决元数据互操作问题,为数据资源的有效利用、共享、交换和整合奠定坚实基础。
参考文献:
[1] The Hebei Province Scientific Recourses Database'S Network[EB/OL].202.206.45.2/kjzy.
[2] 张崇.DC元数据在国内的应用及思考[J].现代图书情报技术,2004(14):6-9.
[3] 戴蓓洁,余双,金蓓弘.基于DOM解析器的XML编辑器研究[J].计算机工程与设计,2007,28(22):5334-5338.
[4] 孔庆杰,宋丹辉.元数据互操作问题解决方案[J].情报科学,2007,25(5):754-758.