首页 > 范文大全 > 正文

MARC字段使用对图书馆元数据实践的意义

开篇:润墨网以专业的文秘视角,为您筛选了一篇MARC字段使用对图书馆元数据实践的意义范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:《marc字段使用图书馆元数据实践的意义》是OCLC于2010年3月的研究报告,是OCLC研究部活动“搜集证据说明MARC元数据实践需要改变”的成果,由“RLG合作伙伴MARC字段使用工作组”在2008-2009年研究完成。报告包括6个部分,第一部分为引论,后五部分为各自独立的统计分析报告,汇集对多个联合目录的MARC字段使用、机器匹配字段、检索字段等数据,力图全面反映MARC实践、提出改进建议并指点MARC的未来。

关键词:MARC OCLC

中图分类号:G254.364 文献标识码:A 文章编号:1003-6938(2010)03-0056-003

Implications of MARC Tag Usage on Library Metadata Practices

Hu Xiaojing (East China Normal University Library, Shanghai, 200062)

Abstract: Implications of MARC Tag Usage on Library Metadata Practices is a report issued by OCLC in March 2010. It’s a result of OCLC Research activity Gather Evidence to Inform Changes Needed in MARC Metadata Practices, and offered by RLG Partnership MARC Tag Usage Working Group between 2008 and 2009. The report includes six sections. After an introduction, there are five independent statistic analysis reports about MARC tag usage, machine matching, search and others. The report focuses on MARC practices and includes recommendations for its improvement. The report also gives its views on MARC’s future.

Key words: MARC; OCLC

CLC number:G254.364 Document code:A Article ID:1003-6938(2010)03-0056-003

2010年3月中旬,OCLC公司了一份关于Marc的重要报告――《MARC字段使用对图书馆元数据实践的意义》。本报告是OCLC研究部“搜集证据说明MARC元数据实践需要改变”的成果,由“RLG合作伙伴MARC字段使用工作组”在2008-2009年研究完成,合作伙伴来自澳大利亚国家图书馆、纽约公共图书馆、明尼苏达大学、加州大学伯克利分校与英国剑桥大学。2009年9月OCLC曾报告《联机目录:用户和图书馆员需要什么》,本报告是其延续。报告含有对多个大型联合目录的大量统计图表,由于研究目的性很强,一些发现或结论并不一定来自对数据的直接分析。本报告由引论及五个独立主题组成,每部分撰写者各不相同。

1 报告摘要

1.1 本报告的研究发现

・ WorldCat中只使用很小的MARC 21字段子集:即使包括非书格式常用字段,出现在10%以上记录中的仅21-30个字段。

・在基于MARC数据元素对记录进行机器匹配时,诸方各行其事:用于记录匹配的共同字段只有:头标5个元素,4个定长字段(008、010、020、022),核心书目数据(1XX、245、246、250、260)。

・尽管机器匹配系统一般使用核心字段与子字段,但某些时候需要超过核心范围,以验证匹配的准确性:不可低估使用MARC数据进行匹配算法的复杂性。

・一般图书馆检索系统仅对字段的一个子集做索引:许多与某一类型文献相关的字段,对检索可能很有用,但未被本研究中的主要图书馆系统索引。

・附注字段常用,但机器不一定擅长解释文本内容:大量使用通用附注500,其他附注字段5XX相对用得少。

・用编目等级作为依据选择“最完整”记录全然不可靠。

・目前图书馆系统抓取的检索日志数据,通常不能对用户行为提供足够信息:许多系统不能提供用户的检索字段,以及结果是否满足其提问。

应该说,MARC字段使用不仅仅是如何被编目员使用,也包括如何被图书馆自动化系统所使用,后者在很大程度上影响MARC数据作用的发挥。本报告的主题涉及上述两方面,但最终的关注点是后者。

1.2 对图书馆MARC元数据实践的意义

这一部分针对当前编目实践中的某些现象提出建议:

・满足本地用户的需求。用户希望你花时间点图版数,还是链接到目次或全文?

・未来几年网上提供全文的文献数量将持续增加,对“描述性元数据”的需要将减少。应专注于全文关键词检索不会提供的规范名称、分类和控制词汇。

・使用合适的字段反映资源。对特定类型附注使用特定的MARC字段,而不是通用的500附注。

・MARC数据不仅用于用户检索与识别,还用于出版物的机器匹配、链接、机器操作、收割、内容分析、排序、系统视图。在使用关联数据、利用其他来源生成的更完整描述及其他相关信息的环境中,机器匹配用字段的精确性正变得越来越重要。

这部分实际上针对的是MARC的未来。未来的元数据不仅提供给最终用户直接使用,还将提供给机器间操作,无论是简化还是强化或复杂化,MARC要具有可持续性,面向机器都将是不可忽视的重要方面。

1.3 MARC的未来?

这一部分提出了对MARC未来的看法,主要包括:

・MARC是特定领域的数据通讯格式,正接近其生命周期的终点。

・未来的系统,如果能够在FRBR所述方法上满足用户需求,并利用新的RDA标准所设想的关联数据的优势,将需要更关联的方法存储数据。MARC不是解决办法。

・未来的编码方案需要有一个强大的MARC转换对照表,以摄入现有成百上千万记录。

・自问:如果我们不必使用MARC,如果我们不局限于以MARC为中心的图书馆系统,我们会如何创建、抓取、建构、存储、检索及显示对象与元数据?

・考虑如何最佳利用关联数据的优势,避免创建相同冗余元数据。考虑传统图书馆环境外的来源。

・与其强化MARC及基于MARC的系统,不如与其他编码方案和系统互操作。我们必须满足其他信息体产生的信息需求。

报告的观点已由标题中的那个问号显示,但到目前为止,MARC的未来仍不明朗。2002年Roy Tennant曾大声疾呼“MARC必须死”,Diane Hillmann不久前的乐观看法是MARC的未来只有5-8年,但Karen Coyle却悲观地发现,开发MARC替代品的计划未受重视。由于替代品尚不可预期,因之MARC的生命期或许还会更长一些。

2 报告正文

2.1 需要强化图书馆数据挖掘

这是由OCLC研究部Timothy J. Dickey撰写的引论。对图书馆数据进行深入挖掘,是OCLC近年来一直追求的方向,用副总裁兼首席战略师Lorcan Dempsey的说法,就是“让数据更努力地工作”。引论针对系统日志,包括OPAC检索日志,从使用角度,看图书馆自动化系统的索引字段,用户使用哪些,检索结果是否满足其需求。了解哪些字段以及字段中的哪些数据最有助于用户,无疑能改善图书馆的元数据实践。

作者指图书馆的系统日志大多不够精细,要强化数据挖掘,需要以下条件:一是从图书馆检索界面抓取更完整的事务日志,包括会话ID、IP地址、检索词串及索引、分面限定条件、命中指示、站内路径(看结果、限定检索、单击参见、转到需求项、下载、放弃检索等);二是流通数据的数据格式更具通用性。

2.2 WorldCat中MARC字段使用

由OCLC研究部Karen Smith-Yoshimura撰写,介绍2009年9月时,WorldCat数据库1.457亿条书目记录中MARC 21字段的出现情况,提供图书、计算机文档、集成资源、舆图、混合资料、乐谱、连续出版物、录音资料、可视资源等9类文献相应的MARC字段数据,涉及15亿条馆藏记录。全部数据在2009年10月已经由OCLC首席科学家Thomas Hickey通过自己的博客。

作者特别指出这些数据并不说明这些字段在检索、匹配等方面的使用,实际上只是编目员对字段使用的统计。MARC字段出现频率受多种因素影响,比如系统自动生成或相反系统不支持,某些标准规定或标准发生变更、只适用于特定文献类型,等等,因而频率高低并没有绝对的意义。记得某位编目专家也曾指出,不能根据现有记录中MARC使用情况,确定用户需要什么、决定未来用什么。

最后作者提出了8点看法,从陈述上看,并非全由观察前述数据得出,只能说反映了作者对MARC的立场。摘录其中的四点:

其一,只有略多于1/2的字段出现在1%以上记录中,再增加新字段理由不足。为适应RDA在2009年增加了新字段,MARC至少在若干年中仍会作为数据通信格式,但今后重点应放在新的数据结构,以容纳其他来源的关联数据。

其二,MARC的冗余加重了维护负担,使向其他更简单的方案映射更困难,阻碍了吸收其他来源元数据的优点。

其三,MARC本身太含糊,结构化不足,不便于机器处理与操作。

其四,需要跨出MARC考虑图书馆元数据内容的未来。

2.3 机器匹配中所用MARC字段与子字段

由剑桥大学Hugh Taylor撰写。作者建立了五个集成数据库,即检索记录用的英国研究图书馆联合目录(RLUK)、COPAC(由RLUK数据库衍生的公共联合目录)、WorldCat、前RLG联合目录及澳大利亚图书馆目录(Libraries Australia),分析进行记录匹配的MARC字段的使用,并与三个标准的必备字段进行比较,这三个标准是:合作编目计划(PCC)的BIBCO与CONSER标准,OCLC编目级别3(简编)记录规定。

2.4 检索界面与数据元素的比较

由澳大利亚国家图书馆Catherine Argus撰写。作者针对五个集成数据库,即AMICUS(加拿大全国联合目录)、COPAC、Libraries Australia(澳大利亚图书馆目录)、及OCLC的FirstSearch,一是对检索界面进行对比,包括检索选项(途径)、限定选项、排序方式及显示;二是对各检索与限定选项涉及的MARC字段与子字段进行对比。报告的结论是,所有数据库提供相似的检索与限定选项,MARC索引字段也类似,但这种相似性不一定能证明当前的检索界面满足用户需求。

与第二部分类似,其最终看法并不是直接由数据或者分析得出,更多地反映作者的主观认识。

2.5 WorldCat中编目等级与字段出现情况

由明尼苏达大学Chew Chiat Naun撰写,依不同的编目级别,分析WorldCat记录中的MARC字段。目的在于了解编目级别是否能如设计的那样,反映MARC记录的质量。结论如概要中所述,不一定。

2.6 MARC字段中关系词及形式/类属词

由OCLC研究部Timothy J. Dickey撰写。作者与纽约公共图书馆Peter Hirsch合作,比较了纽约公共图书馆目录与WorldCat的多媒体资料中,文献形式/类属词(655$a)及责任关系词(1xx/7xx$e)的使用。

责任关系词在USMARC/MARC 21实践中曾被舍弃。本研究选择了反映当前编目实践的2000-2008年WorldCat数据,从统计结果看,除手稿外,关系词及形式/类属词使用比例都相当低。由于此二者的使用将有助于目录的FRBR化,现在有重拾的倾向。

作者简介:胡小菁(1964-),女,华东师范大学图书馆副研究馆员。