首页 > 范文大全 > 正文

国内外元数据质量控制的研究进展与发展趋势

开篇:润墨网以专业的文秘视角,为您筛选了一篇国内外元数据质量控制的研究进展与发展趋势范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:元数据是数字图书馆建设的基础和关键,而元数据能否发挥重要作用取决于元数据质量的好坏。国内外目前对元数据质量控制研究主题主要分布在对元数据质量控制的认识、元数据的质量评估与元数据的质量控制措施三个方面,对元数据质量评估核心指标研究与对元数据质量控制体系的构建研究将是未来元数据质量控制研究的发展趋势。

关键词:元数据 质量评估 质量控制

中图分类号: G254.29 文献标识码: A 文章编号: 1003-6938(2013)06-0101-04

元数据是数字图书馆建设的基础,数字图书馆任何资源的发现、组织、利用和管理都需要元数据的参与。元数据质量的高低直接影响到用户对图书馆资源的利用效率。本文在搜集梳理国内外元数据质量方面的研究文献和数字图书馆实践项目的基础上,对元数据质量控制的理论、方法和成果进行了总结和梳理,希望通过了解元数据质量控制的研究现状来发现存在的问题,进而对元数据质量控制研究的发展趋势做出分析和判断。

1 数据来源

为了了解国内外学者在元数据质量控制方面的研究进展,笔者在ISI Web of Knowledge及Google Scholar中以“metadata evaluation”or“metadata quality control”or“metadata quality assurance”为主题进行检索(检索日期:2013-8-15),最终筛选出相关文献16篇;在CNKI中以“‘元数据and质量’or‘元数据and质量评估’or‘元数据and质量控制’”为检索词进行主题检索(检索日期:2013-8-15),最终筛选出与研究内容相关的文章7篇。

2 国内外元数据质量控制的研究现状

2.1 对元数据质量控制的认识

2.1.1对元数据质量的认识

目前国内外对元数据质量尽管还没有一个标准的定义,但业界普遍认可Bruce和Hillmann的观点,他们认为元数据质量的高低取决于“元数据满足需求和目标的程度”[1],即元数据质量并不是单纯地用元数据评价标准来评价元数据本身,对元数据质量的评估是基于一定的功能需求的,高质量的元数据必须满足资源管理和利用的需求,以达到预期的应用目标和效果。由于这一观点得到了大多数人的认可,因而也成为了开展元数据质量控制的指导原则[2-6]。

那么高质量的元数据需要满足哪些功能需求呢?很多针对图书馆元数据质量评价的研究认为从用户使用的角度考虑,元数据应该满足的基本功能需求是“为用户任务查找(find)、识别(identify)、选择(select)和获取(obtain)”[5],而数字图书馆环境中的高质量元数据还需要满足更多的功能需求[7]。如美国国家信息标准组织(National Information Standards Organization,NISO)在建立优质的数字馆藏指南框架中,从元数据应用管理的角度,提出了创建优质元数据的6条原则:优质元数据应适合馆藏资料和用户需求,适合数字对象当前或未来的使用;优质元数据应支持互操作;优质元数据应使用标准的受控词表来反映内容所涉及的事物、地点、时间和人;优质元数据应包括一个清晰的声明,表明数字对象的使用条件和期限;优质元数据文件本身也是对象,因此应具备档案性、持久性、唯一认证性等品质;优质元数据应是权威和可证实的;优质元数据应支持馆藏对象的长期管理[8-9]。

2.1.2对元数据质量控制体系的认识

(1)元数据质量评估。很多元数据管理者,如美国的NSDL持续开展的元数据质量评估实践和研究[10]、台湾的TELDAP UC项目[1]等很早就开始关注元数据质量。通常改善元数据的质量状况,首先需要对其做出全面评估。元数据评估有助于获得对元数据质量的全面和具体的了解,以发现存在的问题及其产生原因。对于资源管理者而言,元数据的质量评估是元数据质量控制策略的重要组成部分[6]。构建合理、科学、适用的元数据质量评估模型是元数据质量控制的第一步。国外的Bruce和Hillmann、国内的黄莺和李建阳等都分别在前人研究基础上提出了一定的评估模型[2][5]。

(2)元数据质量改善方法。对元数据质量状况进行评估后,针对具体的问题和出现的原因,采取相应的方法和措施,如编目人员培训、编制元数据创建指南和定期审查等,解决或者改善元数据的状况。

2.2 元数据质量评估研究

2.2.1元数据质量评估指标体系

有学者指出,元数据质量是一个多维的问题,元数据质量可以从资源集合(collection)、记录(record)与元素(element)三个不同层次的正确性、完整性、重复性及一致性等指标进行考察,其中,元数据记录(record)层次的考察通常是质量评估的核心,不同的指标也针对着不同的层次[11]。如对于单个资源集合来说,就要以记录为单位考察其元数据的正确性(Correctness);而对于单条记录来说,就要考察其每个元数据元素的完整性(Completeness);对于资源集合,就要考察其中元数据的一致性(Consistency)以及合并后的重复性(Duplication)问题。Moen等针对美国政府GILS元数据的质量评估就采用了这种思路,同时从功能角度考察出发,增加了可用性(serviceability)指标[3]。Stvilia等采纳了Moen提出的大部分指标,并在此基础上增加了一些,使指标数量达到了32个,并且将这些指标分成了描述对象本身的指标、相关性指标以及对元数据提供者进行评价的指标三类。此外,一些指标(如准确性、逼真度等)在不同的评估角度中都有出现[12]。

Bruce和Hillmann认为前两项研究成果的指标设定过于繁琐,他们在此基础上进行精简以提高评估指标的可操作性。他们最终提出了7个元数据质量特征:①完整性(completeness):元数据全面、详尽地描述其目标资源的程度;②准确性(accuracy):元数据提供的内容能否正确客观反映资源对象的特征;③来源(provenance):元数据的创建者是否专业权威;④与预期的符合程度(Conformance to Expectation):是否满足了预定的功能需求;⑤一致性和连贯性(Consistency Coherence):元数据在结构和语义上是否遵循一定的规范;⑥时效性(Timeliness):元数据是否及时进行修改以保持与资源对象的一致;⑦可获得性(Accessibility):元数据是否容易获取和利用[3]。他们的指标体系易操作且具有更广的应用范围,是最受推崇的。台湾的TELDAP UC项目中对元数据质量的评估完全采纳了这七个指标[1]。Xavier Ochoa和Erik Duval在其基础上设计了每个指标对应的自动算法[13]。

元数据评估目标和应用环境的不同导致指标体系各异,每个指标体系采用的指标及其数量差异很大。Park分析了各种元数据质量评估中经常重合的一些标准和指标,发现准确性、一致性和完整性是衡量元数据质量时最常用的标准[7]。其中,准确性是指元数据元素的数据值与某个被描述对象的对应程度,输入的数据不正确(如拼写和印刷错误)或者丢失会影响其准确性,元数据使用不正确也会造成数据的不准确;一致性与语义和结构两方面的描述是否规范有关,涉及到规范控制的问题;完整性很大程度上是由资源类型或者数字资源的特性来决定的。一个资源类型中为“必选”或者“有条件的必选”的元素,在其他的资源类型中可能是“可选”的。

黄莺、李建阳考虑到评估指标体系的实用性和扩展性,提出了一个四维核心模型[5]。该模型分为两层。第一层为核心层,以完整性、准确性、一致性和期望满足度为评估指标。这四个指标和元数据的内在属性密切联系,都是对元数据自身的质量进行评估。第二层为可选维度,包括可获取性、易用性、来源、安全性等指标,这些指标描述的是元数据的外部属性,根据元数据的应用环境中不同的评估目标、方法来进行扩展。四维核心模型既保证了核心维度评估结果的通用性,又满足了本地系统应用的需要,十分具有参考价值。

可见国内外元数据评估指标体系构建的研究焦点在于评估指标的选取,且一般都是先确定核心指标,然后兼顾应用目标和应用环境进行扩展。但哪些是元数据质量评估的核心指标以及如何确定,仍然有待进一步的研究。

2.2.2元数据质量评估方法

最早的元数据全面质量评估多使用人工方式,但随着元数据数量的增多,完全依赖人工方式在时间和工作量上都不允许,所以逐渐开始使用工具和方法对元数据的语法和结构(如相关字段的必备性、语法错误、链接是否可用等)进行辅助检查,目前也已开发了一批元数据质量校验工具,如:国内CALIS针对特色数据库导出元数据的规范性和必备性设计的数据质量检查工具;检查DC元数据记录、协议、规则的正确性的DC checker;地理空间数据库元数据标准FGDC的质量检查工具CNS与MP等等[15]。元数据质量评估的方法主要有以用户为中心展开的社会评估(如专家调查法、用户调查法)与以数据为中心的技术评估(如抽样分析法、层次分析法等)两种方法。但一个全面的评估通常要综合多种方法[6][11][14],人工和自动相结合的方法也是最具操作性和有效性的方法。TELDAP UC项目的元数据质量评估就采取了将人工审核和自动评估相结合的方法[1]。

2.3 元数据质量控制措施研究

元数据的创建大部分是手工操作的,尽管随着数字资源的增加,现在已经有很多自动抽取创建元数据的工具和方法,但是这种方法获得的元数据质量参差不齐,最终还是需要手工进行审查和修改编辑,所以元数据的质量改善最终还是主要依赖人为的干预。Park和Tosaka在2007年对ARL的67家成员馆进行了一项关于被调查者所在馆元数据质量控制机制的调查,调查结果显示:83.6%(56家)的图书馆对元数据采用人工审查机制,31.3%(21家)的图书馆应用工具来检查元数据的一致性和准确性[7]。

总体来看图书馆的元数据质量控制措施,主要沿袭了书目控制的很多做法,总结下来主要有[1][2][16]:①提高编目人员的质量控制工作水平。对编目人员进行编目流程、著录规则和著录规范以及工具使用等方面的培训,有助于元数据著录的规范化和标准化,确保元数据的准确性和一致性。②编制元数据创建指南。元数据创建指南(或者称为元数据应用纲要)一般由元素名称、标识符、定义/描述、注释、著录规则以及示例组成。将元数据指南嵌入元数据生成系统中,通过参考文本指南,能够协助元数据创建者生产高质量的元数据。③在著录环节进行质量控制。人工编目会出现很多错误,所以在著录环节要尽量采取措施减少人工输入。可以使用简单的元数据创建工具,如模板、选择列表以限定对特定字段的录入;使用受控词表;使用相同的软件等等,保证元数据的准确性和一致性。④定期的抽样审查:任何著录都有可能出现错误,所以要定期安排专业编目人员对上传的数据进行校验,及时发现其中的错误并进行改正,防止问题的长期积累。

3 元数据质量控制研究的发展趋势

3.1 从构建评估指标体系研究向构建评估核心指标体系研究发展

元数据质量评估的模型很多,但相互差别很大,针对不同资源元数据的质量评估指标体系也差别很大[9][15][17],甚至互相冲突,这使得元数据质量评估很难达到预期效果。其实,在元数据众多质量评估指标中,有些是影响元数据质量的核心要素,它们是评估时必须考察的维度,是质量评估模型的核心组成部分。元数据核心质量指标体系的构建,将会从理论上为各种元数据的评估提供支持,有助于元数据质量评估实践应用的发展。因此,我们可以预见,目前对元数据质量评估指标体系的构建研究,将逐渐向核心指标体系构建研究方向发展。

3.2 从重视单个环节的质量控制研究向构建贯穿于生命周期的质量控制机制研究发展

质量控制领域提出的全面质量控制的理论,强调实现对整个流程的把握,这一理论对于元数据的质量控制同样适用。元数据质量控制应该从元数据创建的全局考虑,贯穿元数据整个生命周期,从元数据标准的选取和制定、著录过程、后期互操作和集成、质量状况的评估和改善,实现全程控制[17]。只有这样才是一个完整的控制体系,实现元数据质量的完全控制,从根本上提高元数据质量。

3.3 从对人工质量控制素养培训研究向元数据质量的自动化应用研究发展

随着数字资源数量的增长,描述资源的元数据也在剧增。单纯依靠人工审核实现元数据的质量控制已经不现实。而在元数据质量考核的某些方面(如检查字段的完整性、格式的一致性等),自动化评估和控制技术的全面性、及时性、客观性以及降低成本的表现都比人工干预要出色[18]。因此,我们可以预见未来的元数据质量控制研究将更加注重自动化技术和方法的应用,如针对元数据质量评估指标设计自动算法设计等。

4 结语

在开放系统环境以及资源整合、资源互操作趋势下,如何保证元数据的质量成为一个越来越突出的问题。国外在相关方面的研究已经形成较为系统和连续的成果,相比较而言,国内针对元数据质量的理论研究不是很多,已有的研究也主要是针对特定类型的资源进行的元数据质量问题分析和解决,主题和内容分散,也缺乏一般适用性和连续性。随着元数据质量控制研究的深入发展,对元数据质量控制研究将会呈现新的内容主题,确定元数据质量评估核心指标、构建贯穿元数据生命周期的质量控制体系也必将成为未来元数据质量控制研究的发展方向。

参考文献:

[1]Bruce T R,Hillmann D I..The Continuum of METADATA Quality Defining, Expressing, Exploiting[EB/OL].[2013-08-15].http://ecommons.library.cornell.edu/handle/1813/7895.

[2] Chen Y N,Wen C Y,Chen H P,et al.Metrics for Metadata Qual-ity Assurance and Their Implications for Digital Libraries[C].Proceedings of the13th International Conference on Asia-Pacific Digital Libraries (ICADL2011) ,2011.

[3]William E MOEN,Erin L STEWART,Charles R MCCLURE.Assessing Metadata Quality: Findings and Methodological Considerations From an Evaluation of the Us Government Information Locator Service (gils)[C].Research and Technology Advances in Digital Libraries, 1998:246-255.

[4]Jung-Ran PARK.Metadata Quality in Digital Repositories: a Survey of the Current State of the Art[J].Cataloging & Classification Quarterly,2009,47(3):213-228.

[5]黄莺,李建阳.元数据质量评估方法及模型研究[J].图书馆学研究, 2013,(12):52-56.

[6]蒋引娣.元数据质量评价研究[J].图书馆理论与实践,2009,(5):45-47.

[7]Yuji Tosaka JUNG-RAN PARK.Metadata Quality Control in Digital Repositories and Collections: Criteria,Semantics, and Mechanisms[J].Cataloging & Classification Quarterly,2010,(48):696-715.

[8]NISO Framework Working GROUP.A Framework of Guidance for Building Good DigitalCollections[EB/OL].[2013-08-15].http:///publications/rp/framework3.pdf.

[9]刘家真,廖茹.电子文件管理元数据的质量控制与管理[J].图书情报知识,2009,(6):93-98.

[10]Park J BUI Y.An Assessment of Metadata Quality: A Case Study of the National Science Digital Library Metadata Repository[EB/OL].[2013-08-15].http://idea.

library.drexel.edu/bitstream/1860/1600/1/2007021006.pdf.

[11]Jian Qin MARCIA LEI ZENG.Metadata[M].New York:Neal-Schuman Publisher, Inc,2004:247-249.

[12]Gasser L Twidale M et al. STVILIA B.Metadata Quality for Federated Collections[C].Proceedings of ICIQ04—9th International Conference on Information Quality. Cambridge, MA.,2004:111-125.

[13]Erik Duval,XAVIER OCHOA.Towards Automatic Evaluation of Metadata Quality in Digital Repositories[J]. Lecture Notes in Computer Science,2006,4231:372-381.

[14]胡永健,周寄中.科技资源信息元数据质量审核方法研究[J].管理评论,2011,(1):41-47.

[15]李凌杰.特色数据库建设中的元数据质量控制研究[J].图书情报工作,2010,(5):45-48.

[16]朱肖川.论网络教育资源元数据评价标准[J].重庆广播电视大学学报,2008,(3):7-10.

[17]Shawn TURNER.Quality Control Procedures for Archived Operations Traffic Data: Synthesis of Practice and Recommendations[D].College Station, Tx: Texas Transportation Institute, the Texas A&m University System,2007:2010.

[18]黄莺.元数据质量的定量评估方法综述[J].图书情报工作,2013,57(4):143-148.

作者简介:曹月珍(1987-),女,中国科学院大学硕士研究生;马建玲(1969-),女,中国科学院国家科学图书馆兰州分馆/中国科学院资源环境科学信息中心研究馆员。