首页 > 范文大全 > 正文

特色数据库元数据建立研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇特色数据库元数据建立研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:随着信息社会的发展,当前图书馆中的信息产品已越来越难以满足人们对信息资源的需求。因此,建立图书馆的特色数据库就成为了必然之势。而元数据建立就是完成高校图书馆特色数据库的建设的基础。本文首先对元数据的概念和特点进行了阐述,其次针对元数据的建立过程中应注意的诸多问题进行了简要分析,最后提出了元数据建立的基本原则。

关键词:信息资源;特色数据库;元数据;基本原则

引言

随着时代的发展和进步,当前已经进入知识经济时代。网络信息技术的飞速进步,大大加快了信息资源的传播速度;加上层出不穷的社会科研成果,有用的知识信息量急剧增长,使得人们如何通过Internet快速准确的获取所需信息已逐渐成为大家关注的问题。作为重要的知识信息集散地,图书馆长期以来扮演着信息服务的前沿阵地的角色。但是事实是,图书馆根本不可能将所有的出版物收集起来供用户查阅,而且不同用户对信息资源的需求也不限于单一资源,而是希望对国内外各学科科学新动向、新成果、新发展有较为全面的了解,希望能了解一些市场竞争、市场供求的实时动态信息等。因此,图书馆就必须立足自身实际、充分发挥资源优势,完成数字化图书馆的建设,实现资源的整合。而信息资源的有效整合的基础就是元数据的建立。

1 元数据的基本概念

元数据(metadata)又称为数据的数据(data about data)或对其他信息进行描述的信息 (information that describes other information),其作用类似于图书馆中数目卡片。随着现代网络技术的发展,信息资源的快速膨胀给我们带来了诸多难题,而元数据则是解决这类难题的关键所在。元数据能帮助解决的问题主要有以下三个方面:1)有效组织和存储不胜枚数的信息资源,以解决目前URL方式无法满足需求的问题;2)作为一种信息检索方式,帮助人们在浩瀚的信息海洋中快速准确的完成有效信息的检索。目前主流的信息检索方法是搜索引擎,但其带来了庞大的无效信息量,给人们的信息检索造成困扰;3)有效管理巨量的信息资源。为适应如今信息量剧增、瞬息万变的世界,应该及时补充和更新已知的信息,所以要加强专家系统、智能与数据挖掘等新支持系统的研发。因此,元数据主要的功用就是对现有信息资源的有效描述、检索、并对原有信息进行维护、更新和补充,实现信息资源的有效管理和共享。

然而到现为止,元数据仍不存在统一的格式和标准属性,反而具有非常灵活的形式。不同领域的元数据标准也往往不同,如地理空间领域所用的是DGM,音乐资料领域所用的是sMDL,而档案领域应用的却是EAD等等。此外,不同的组织所制定的元数据标准的偏重点也往往有所差异,如MFC、CDF、RDF及Dublin Core(都柏林核心元数据)等,其中影响力最大的当属Dublin Core,其已经逐渐发展成一种通用的元数据标准。且近些年来,我国相关部门已经根据Dublin Core制定出了相应的中文元数据标准,如会议论文、期刊论文(期刊单篇)、电子图书、拓片及音频等元数据的标准。常见的国内元数据标准有CALIS元数据标准和国际科技部元数据标准两种。

2 特色数据库的元数据特点

在高度信息化的现代社会,元数据的使用范围越来越广,特别是特色数据库更加具有针对性,我们必须对其特点做深入的了解,才能更好地对它加以利用。经过仔细研究,能够归纳出以下特点:

1)由于元数据的本质功能是对对象数据进行描述,特色元数据同理,它的本质特点就是描述性,主要利用一些约定俗成的为大众接受的规则对数据进行描述;

2)特色数据库的元数据具有复杂性,因为特色数据库不同于维普、CNKI等这样的商业数据库,它包含的资源多种多样,包括期刊单篇、图书、会议论文甚至是音频、视频等内容,另外,特色数据库里面的数据除了以一次文献,可能还有综述、摘要、关键词等内容,要对特色数据库建立元数据,就必须考虑特色数据库的各方面的内容,元数据的检索也要涵盖各方面的内容,相对来说较为复杂;

3)特色数据库中对某些字段的定义难免不够标准。因为特色数据库中的资源类型繁多 ,部分不在相同资源类型中的相似内容很有可能在相同的字段中定义,比如时间,图书的出版时间可能会和会议举办的时间共同归纳在数据库的“时间”的字段当中,再如,不同文献类型中的页码都可能归纳在数据库的“页码”字段;

4)部分满足现有标准的必备元素在特色数据库中没有被准确定位,在特色数据库建立初期,相比于数据的完整性与可交换性以及字段定义方面来说,著录者对数据库的应用和功能更为重视,这样厚此薄彼的做法直接导致了部分重要字段的丢失,比如审校时间、审校员等管理类型的元数据以及统一资源标识符(简称URI)、资源类型等描述型的元数据;

5)特色数据库元数据中的某些字段内容未达到标准要求,虽然元数据已经有了很长的发展历程,但在近几年才被引入到国内,大部分高校在建设特色数据库的时候它还未被引进,因而过去对其概念的提出并不标准,这就导致各个特色数据库中的字段定义各行其是,没有统一的标准,这些在早期被定义的字段内容取法与现有标准的元数据相契合,例如某一期刊中的年卷期被归纳在一个字段中。

3 特色数据库元数据建立时应注意的问题

3.1元数据的描述深度

所谓元数据的描述深度,就是元数据解释对象的程度的高低,通俗一点来说,就是元数据在定义时的使用数量。在描述对象时,一定要掌握好度,若描述的程度太高,就会增加输入难度;反之,则会导致描述对象数据不完整、对象数据反应不精确等问题。相对于商业数据库而言,特色数据库对元数据的描述程度更高,它的元数据,还包括一些对象数据的输入都要求当地职工完成,所以,如果将元数据定义太广的话,就会成倍增加工作人员的工作量。

对于元数据的要求,读者和著录方的要求有明显的差距。元数据建立的初衷只是使数据更加标准化,方面对数据的检索、管理等,如果仅仅满足于这一要求,那么只需要将主要责任者、正题名、主题等一些重要的元数据进行定义便可。但是,使用数据的主要对象是读者,为了使阅读更加方便,能从更全面的途径检索、获取信息,受众群对元数据的著录提出了更高的要求,他们希望著录的元数据更多更全。面对数据加工和信息服务之间的矛盾,在建立元数据之前应当尽可能地寻求两者之间的平衡点,以求达到最好的效果。

3.2建立非一次文献元数据的标准

现有元数据标准的适用范围十分有限,主要是如期刊单篇、图书、会议论文等的基础文献资料,特色数据库解决了这一问题,它不仅囊括了基础文献资源,还包括一些非一次文献,如文摘等。因此,为了避免建立数据库时做无用功,我们在对文摘等非一次文献数据库著录元数据之前,应当仔细考虑以下问题:是建立基础文献的元数据库,还是建立文摘的数据库?由于两者之间存在很大的差异,所以在工作之前应当搞定这一问题。比如作者,若以文摘为依据,元数据应为文摘员,反之,则为作者;再比如著作时间,以文摘为依据,元数据应为文摘创作时间,反之,则为原文创作时间。就个人而言,在为文摘数据库建立元数据的时候应当以基础文献为依据,原因有二:1)在文摘数据库中有很多像“文摘员”这样的特殊字段完全能够从元数据标准中扩展定义;2)文摘始终来源于文献,它只是对基础文献数据的描述。如果在建立数据库时将文摘作为主要依据,就难以对基础文献进行有效描述,如创作时间、作者等重要信息,这将对作者正确理解文献信息造成障碍。

3.3资源整合模式的运用

资源整合的模式对于元数据的建立十分重要,它能够指明元数据的建立方向。现有的资源整合模式主要有两种:网络模式和独立模式。虽然这两种模式能实现一部分相同的功能,比如跨数据、平台的一站式检索功能,但两者之间还存在着较大的差别。运用网络模式进行资源整合,不会过多考虑文献所属的数据库,而主要考虑数据资源的类型,根据资源属性建立各自的数据库;如果运用独立模式的资源整合模式,就不用考虑资源类型,而按具体标准建立相应地元数据库。相比之下,网络模式的资源整合方式更加适用于元数据的建立,主要原因有三:1)独立模式下的数据库均有它们的元数据库,当数据库达到一定数量时,元数据也会变得十分庞大,这样不仅不利于数据库的管理,还会增加检索的时间,而采用网络模式进行资源整合,就会有基本固定的元数据库数量;2)由于不同数据库之间也存在着相同的资源类型,如期刊单篇同时存在于特色库和CNKI 中,独立模式的资源整合方式会增加各个数据库的元数据,这样不仅使元数据的定义太过随意,还增加了职员的工作量;3)由于元数据的标准需要依据相关的资源类型来建立,所以采用网络模式的资源整合方式更加合理。

4 特色数据库元数据建立的基本原则

作为描述数据的特殊数据,元数据建立的目的就是便于特色资源的检索和存取。通过对特色资源的运行方式、功能特点和系统的总体运行性能进行统一的描述和规定,元数据的建立将特色资源进行标引以方便广大用户的检索与使用。但是,目前首先要进行考虑的特色资源的共享问题,因此,特色数据库元数据的建立应遵循以下原则:

4.1准确性原则

按照元数据的定义,其目的是为了完成对数据内容的描述。因此,准确无误的元数据标引是实现准确描述数据的前提。具体而言,就是要求元数据建立不仅能准确的描述信息资源,还能保证使用的相关术语、元素定义等概念清晰,不存在模棱两可的情况,且不使用那些易于发生歧义的元数据。换句话说,元数据建立时不但要将著录标准、传输语言等进行统一规定,还要对元素的设置、标记语言及著录的原则进行严格的规定。只有实现这样的元数据标引,所建特色数据库的检索质量和检索效率才能达到最好的效果。

4.2标准化原则

在特色数据库的建设时,标准化是实现有效进行信息标引和资源共建共享的主要因素。但目前而言,元数据建立的标准尚存在很多问题。虽然像都柏林核心元素集等流的元数据建立已经有了统一的通用的标准,但是全国各地仍然难以在资源的共建共享上取得统一的认识,在实际操作中仍各行其是,同时在元数据的标引上也难以达成一致。即使是对相同元素进行元数据的著录时,差异往往也会很大。例如,最初像都柏林核心元素集只规定有15种核心集元素,以达到规范、简化元数据的标引过程。但是具体到各地图书馆后,很多图书馆在此基础上盲目扩充,使得该数据集日益复杂化,越来越难以实现标准化了。元数据的标准化内涵广泛,既包括元素著录时内容的标准化、进行相同类型的数字化信息资源的著录时所用元数据的统一性,还包括元数据建立时采用的编码语言的统一化等方面。

4.3互操作性原则

当不同的组织和管理且相关技术规范不完全相同,应该给用户提供统一的检索界面,实现对用户的一致,这就是元数据的互操作性原则。由于组织信息进行特色数据库的建立时,各地图书馆所采用的元数据标准难免会有出入,且学科和内容也有较大差别,数据库建成后又要求实现资源的共享,故应该遵循元数据建立的互操作性原则,以满足客户需求,实现特色数据库的建立。

4.4编码语言的统一性原则

实现对元数据的元素与结构的描述和定义的语法规则和具体语义就是元数据的编码语言。就目前而言,元数据建立时使用的编码语言有很多种,具体包括超文本标记语言(Hypertext Markup Language,HTML)、标准通用标记语言(Standard General Markup Language,SGML)及可扩展标记语言(Extensible Markup Language,XML)这三种。有的元数据对使用何种编码语言有着明确的规定,如美国联邦联邦地理数据委员会、TE1和EAD都只使用SGML语言。有的元数据在这方面又没有相关的规定,如DC数据,既有使用XML的,也有使用HTML的。考虑到资源的共享和数据交换,元数据作为传递计算机系统所能理解的存储数据和信息,其元素结构和组织方式必须要能被计算机理解。但是由于元数据有着不甚规范的编码语言,造成了元数据的格式记录和编码规则不统一,这样的元数据建立的特色数据库就难以实现资源的共享和数据的管理。因此,采用规范、统一的元数据编码语言是实现信息资源的准确描述和资源共享的必然选择。

4.5专用性和通用性原则

元数据建立的专用性指的是某种元数据的建立只能完成一种特定信息资源的描述。而元数据的通用性原则指的是某种元数据可以实现多种信息资源的描述。元数据的专用性适用于对某特定信息资源实现很好的描述,但难以对其他信息资源进行适当的描述;而元数据的通用性原则能实现对多种信息资源的有效描述,却对特定信息资源缺乏足够的描述力度。尽管特色数据库本身是一种专指的数据库,但是作为优秀的特色资源库,其专指的应该是学科,但是该学科所覆盖的内容是可以很广泛的。因此,为实现众多信息资源的有效整合和优秀的特色数据库建设,在进行元数据建立时应兼顾元数据建立的专用性和通用性,在两者间找到平衡,达到更好的效果。

5 结束语

元数据的建立是建设图书馆特色数据库、有效整合和管理信息资源的基础,本文对元数据的基本概念和特点作了较为详细的阐述,其次针对元数据的建立过程中应注意的诸多问题进行了简要分析,最后提出了元数据建立的基本原则。

参考文献

[1]李凌杰.特色数据库建设中的元数据质量控制研究[J].图书情报工作,2010(05)43-46.

[2]袁小一,苏智星.浅谈特色数据库元数据的建立[J].晋图学刊,2005(05)28-30+35.

[3]阴小建.基于XML的特色数据库平台研究[D].山东师范大学,2010.

作者简介:

姚炜(1973-),女,上海人,图书馆工作人员,大学专科,初级职称,于1993年4月进入上海图书馆,现从事的工作是上海图书馆信息处理中心的胶卷数字化图像校对与划到。