开篇:润墨网以专业的文秘视角,为您筛选了八篇元数据范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
关键词:元数据 温州 特色数据库
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2013)02-0158-01
特色数据库是指充分反映本单位在同行中具有文献和数据资源特色的信息总汇,是图书馆在充分利用自己的馆藏特色基础上建立起来的一种具有本馆特色的可供共享的文献信息资源库[1]。特色数据库建设是数字图书馆资源建设的核心和发展方向。随着信息技术的飞速发展,特别是网络终端的不断普及,数字图书馆及其信息急剧增加。为了适应这种快速发展,信息学家们建立了许多适用于不同资源、面向特定领域的元数据方案,如MARC、DC、VRA等。元数据为数字信息提供了数据内容、语义和服务的机制等方面的精确描述,便于人们标识、发现、评估和管理信息资源。
温州地处浙江东南沿海,是浙南地区的经济、文化、交通中心,拥有丰富的地域文化资源。科技信息化的浪潮,使得温州近几年大力发展、建设了许多温州地域特色数据库。如:《民俗学文献与温州地域特色文化资源数据库》、《雁荡山摩崖石刻》、《泽雅造纸》、《龙湾民俗》、《温州鞋服资讯网》……其中,温州地区共有21所公共图书馆,具有特色库的图书馆比例达到了33.3%;温州地区的高校有19所(不包含独立学院,如温州大学城市学院、瓯江学院、温州医学院仁济学院),具有特色库的图书馆比例达到15.8%。
1 温州地域特色数据库的资源和元数据现状
1.1 资源内容丰富多彩
温州地区各公共图书馆和高校图书馆都从自身服务读者群的角度,结合地域特色收集整理了包括书目数据(OPAC数据)、图书、期刊、报纸、学位论文、曲谱、网址、照片、视频、三维视图等各种题材的地域文化文献,从温州人、温州历史、温州山水、温州宗教、温州民俗等多种角度整理、保存了温州地域文化。集中展示了温州地域特色数据库资源的多媒体特性。
1.2 特色数据库元数据建设
特色数据库的建设标准在高校系统中,经由CALIS、CADAL等项目及子项目的开展,逐渐形成了一套行之有效并有利于长期发展的一套模式及流程。如《CALIS文献资源数字加工与标准》、《描述型元数据及其著录规则》、《CALIS数字对象惟一标志识符命名规范》、OpenURL开放链接标准、LDAP标准、Web Services组件封装规范、Calis United Query and Resultset统一检索接口规范等。其中温州大学的《民俗学文化与温州地域特色文化资源数据库》参照CALIS标准,遵从以上元数据规范原则建设,最终在资源数据量、元数据格式、统一标识、网页层级结构等都有较佳表现。而公共图书馆特色数据库在元数据方面则较为粗糙,这为易获取和数据深层次分析、利用造成障碍。
2 元数据规范设计的原则
元数据可以划分为3种比较宽泛的类型:描述性元数据、结构性元数据、管理性元数据,[2]。描述性元数据指用以描述和识别数字对象的特征、分析信息体知识内容的数据。结构性元数据有时也被称为技术型元数据,是用于确保数字化对象正常发挥功能的技术性信息。它是指相关文件的结构或“标记”,如何组成在一起,如何在各种系统中显示和等。管理型元数据提供有关数字对象的存储条件和转换过程相关的信息。它的目的是满足管理、决策、保管记录的需要,有助于检测、复制和备份数字资源。但是到目前为止,大多数有关元数据的讨论仍只是针对描述性元数据。所以,在描述性元数据规范的制定过程中,需充分考虑著录者、使用者的需求和著录对象的特性,并在其间做一最佳平衡和组配。
一致性原则:指在元数据设计过程中,应尽量注意保持与现有的国家标准、行业标准或者与其他政府标准、国际标准相一致。
简单性与准确性原则:简单性主要指设计的元数据标准在著录实际应用时应较为简单,易于掌握,尤其要考虑到著录人员除编目员外,更多的是相关专业人士,如计算机技术人员在编程时,希望元数据项越简单越好,图情专家则更注重如何细致全面的描述数字对象,因此,同时要考虑到简单化可能导致的不准确,需在二者中作一权衡。
专指度与通用性原则:由于元数据应用的各类资源的各自特性的不同,著录深度(如书目、内容和插图等)和广度(指相关联的一组文献作总体著录)的不同,因此,无法只参照一种元数据标准,需要根据具体的资源实体来确定相应的元数据标准。另一方面,必须考虑元数据标准在一定背景环境下的通用性。
互操作性与易转换性原则:元数据的互操作原则体现在对异构系统间互操作能力的支持,不仅可以为自己的应用系统所操作,而且可以为其他组织或机构的应用系统所操作;不仅可在不同系统实现在同一元数据标准间的数据的传输、交换或转换,而且不同元数据标准间实现数据的传输、交换或转换。通常在元数据的具体应用上,互操作性往往表现为易转换性,即在所携信息损失最小的前提下,可方便地将元数据转换为其他系统常用的元数据标准。要实现这些功能,在元数据标准设计过程中必须慎重考虑元素语义和元素结构的准确定义,其中语义定义尤为重要[3]。
可扩展性原则:由于数字图书馆将要处理的数字资源非常广泛,而各类应用背景更为复杂,当时编制的元数据在该阶段的描述适用于当时的应用背景。经过技术更新及概念的重定义会导致原有元数据的元素或属性值不准确或不足,故应允许使用者在不破坏已规定的标准内容(如元素的语义定义)的条件下,扩充一些元素或属性值。元数据标准中应为这种情况提供指导性原则。
用户需求原则:制定元数据标准的目的是想让用户更好和更充分地理解信息资源,因此用户需求应作为最高的权衡标准。特别是在结构与格式的设计、元数据项的增加与取舍、语义规则的制定等方面,尽可能地从用户的角度出发,增加系统与用户间的交互渠道,为用户提供多层次的检索体系。
参考文献
[1]http:///view/3053788.htm.
Keywords:Metadata migration;Electronic archives preservation;Digtal archive
元数据迁移是确保数字档案馆保管电子档案迁移后凭证性的重要方法,正如澳大利亚新南威尔士档案馆提出的“元数据在迁移中至关重要,是证明文件可靠性的最终手段”。[1]特别是在数字档案馆历次新旧系统更替,电子档案迁移的过程中,缺少对元数据迁移的规划,会造成电子档案背景信息丢失的累积性效应。而在我国目前数字档案馆迁移机制的研究中,中国知网检索出电子文件和档案迁移相关的12篇文献都集中在电子档案本身迁移的研究,元数据迁移研究几乎为零。本文通过分析元数据迁移的功能、内容和关键流程等问题,对我国数字档案馆迁移机制中充分重视和运用元数据,提供参考和指南。
1 数字档案馆元数据迁移的定义和功能
迁移一词,英文为“migration”,我国国家标准《GB/T26162.1信息与文献-文件管理-第一部分:通则》中将其定义为“在维护文件真实性、完整性、可靠性和可用性的前提下,将文件从一个系统转移到另一个系统的行动”。国际文件和档案领域代表性定义例如“迁移是系统地将电子文件从一个系统的文件移动至其他系统中的过程”,[2]从定义可以看出,迁移是将电子档案从源系统(软硬件系统)向新系统转化的过程,而所谓元数据迁移,就是在电子档案从源系统向新系统转化的过程中,同时对其携带的元数据进行转化或转移,如图1所示。
出于技术更新、载体过时、管理模式变更(分布式向集中式模式转变)、格式转换等目的,数字档案馆需要采用迁移策略将电子档案移动至新的软硬件技术环境中,无论是简单的迁移,例如将电子档案从过时的光盘载体上复制到新光盘中,或是将电子档案进行格式更新的迁移活动,还是在较为复杂的迁移活动中,例如将电子档案从旧的电子档案管理系统中抽取出来,移交到新系统中,就会造成或多或少电子档案背景信息的丢失,造成凭证价值的影响。但是如果在电子档案迁移过程中,重视元数据迁移,就会弥补这部分背景信息丢失的缺憾。
所谓元数据,指的是“描述电子文件内容、背景、结构及其长久保存的信息”,[3]例如主题词、责任者、来源、格式、业务活动、相关案卷等这些信息都是元数据,如果仅有一份独立的电子档案,人们无法了解这份电子档案形成的初衷和其处理的历史背景,但是通过其元数据,就可以理解这份电子档案的关键内容、业务背景和其他档案之间的关系,因此,元数据通过将电子档案置于一定的业务背景和档案管理级次关系中,而促进了电子档案凭证价值的确认。而忽略元数据迁移,对于数字档案馆长久保存活动带来的影响不容忽视,假如一份电子档案保管期限长达100年,数字档案馆会将其在多代系统之间进行迁移,如果第一次迁移丢失了10%的元数据,也就是电子档案的内容、背景等信息丢失,多代系统之间的迁移就会造成成级数的丢失。百年后,用户对电子档案最初形成的业务背景,所处的保管环境,有哪些用户具备权限访问该份电子档案,档案应用了哪个版本的分类方案等系统信息无从知晓,凭证价值受到严重影响。因此,在迁移过程中,不仅要保持电子档案本身的完整性,还需要保证其元数据迁移的完整性,同时还要保留下档案和其元数据之间的链接关系。
2 数字档案馆元数据迁移的内容
2.1 电子档案元数据迁移。在数字档案馆迁移过程中,应首先对电子档案进行分析,明确哪些元数据对于迁移后电子档案的凭证性不可缺少,再予以迁移。国际领域提出迁移过程中三类元数据对凭证性至关重要,包括内容类、背景类和结构类元数据。这三类元数据分别说明电子档案的内容、业务和保管背景、结构特征,以一份文书类电子档案元数据为例,如表1所示。
表中列出的是这份电子档案的内容、背景、结构等重要特征和对应的部分元数据。在迁移过程中应尽可能地保留下这些特征和元数据。数字档案馆需要从凭证价值出发,结合具体业务、未来用户需求去考量迁移过程中重要特征及元数据的保留情况。各类元数据的具体内容包括:
(1)内容类元数据:说明电子档案的内容特征,即说明文件所要传达的内容,例如主题词、关键词、主要人物等,内容元数据主要用于迁移后电子档案针对内容的检索和利用,是确保其长期可用性的重要工具。
(2)背景类元数据:说明电子档案的背景特征,即文件形成和管理的环境和历史,例如文件责任者、业务活动等元数据。背景元数据主要有两种:一是文件形成业务背景,说明电子档案形成的业务历史,将电子档案处于一定的业务背景中理解和解释,例如业务时间、业务级别、业务说明元数据;二是文件管理活动背景,说明作为档案管理对象,采取和实施的文件管理活动,例如长久保存、检索、处置、控制、利用元数据,该类元数据提供文件管理行为和决策的可审计追踪,确定该份电子档案是在一定安全管理下进行的,凭证性未经非法篡改等行为影响,因此,对说明电子档案的凭证价值至关重要。当电子档案迁移时,也必须捕获文件迁移过程的元数据,作为背景信息的一部分。
(3)结构类元数据:说明电子档案内部或外部结构,即文件要素关系,例如相关附件、相关案卷、相关全宗、业务分类方案等元数据。该类元数据主要说明:①文件内部结构,例如电子文件内部包含链接样式表或图像;②文件之间的关系,例如记录同一个业务的多份文件;③文件和文件集合之间的关系,例如文件和所属案卷、类别的关系;④文件和其他实体的关系,例如文件和形成者的关系;⑤文件和其他控制工具的关系,例如文件和业务分类方案的关系,文件和其应用文件保管期限表的关系,文件和利用安全控制法律法规的关系等。在迁移后,这些关系都必须存在,因此,必须在迁移过程中关注这些关系元数据,确保所有必要的元数据都能迁移至新系统中,并且保持可用性,链接至相关文件,这将对维护文件的背景和真实性很重要。
对于电子档案元数据,我国行业标准《文书电子文件元数据方案》(DA/T 46―2009)中提出了文书类型档案相关元数据可供依据,但是数字档案馆电子档案类型居多,所需的元数据不尽相同,因此,需要形成、参考和依据更多类型的元数据标准作迁移过程参考。在无国家标准可依据的情况下,各馆可以根据实际或是参考国际先进标准来补充,例如美国印第安纳州大学2010年开展的元数据标准的可视化地图项目,该项目对文件遗产领域制定的105项元标准按其应用的资源类型(Domain)、应用领域(Community)、功能(Function)和目标(Purpose)四个维度进行了分类和统计,我国可充分借鉴这些元数据标准应用到迁移工作中。
2.2 电子档案系统元数据迁移。系统元数据指的是电子档案保管计算机系统中所含的元数据,例如访问授权、访问角色、访问时间、访问人员、系统分类方案版本、版本号、分类方案设置时间、失效时间等元数据。这些元数据“记录了档案管理系统中何人、何时、出于何种原因执行了何种动作,以及何人具备权限查看和执行系统操作”,[4]这类系统元数据看似和电子档案并不直接相关,但是,其是对电子档案所处保管环境的背景说明,对于新旧系统迁移后完整还原电子档案所处的系统背景,通过元数据证实电子档案所处环境的安全稳定性,来证实电子档案的真实可靠。正如欧盟《文件管理系统模块化需求》(Modular Requirements for Records Systems)指出的:“系统元数据的重要性就在于其影响电子文件的证据价值。”因此,系统元数据也应当随同电子档案一起迁移。
对于这类系统元数据,目前我国缺乏相关标准和规范可供依据,可以借鉴欧盟的《文件管理系统模块化需求》标准,该标准对电子文件和档案系统中的系统元数据做出过规范,指出为确保电子文件在多代系统迁移中的凭证性,对系统中的每一类重要对象都应捕获其系统元数据,例如对系统中的用户对象应捕获用户标识、用户名、用户创建时间、用户所属分组、用户删除时间、用户权限说明等系统元数据;对系统中使用的分类方案、保管期限表等控制工具应捕获其标识符、创建时间、第一次应用时间、名称、说明、版本、失效时间等元数据。
3 数字档案馆元数据迁移的核心流程
国际标准提出,元数据本身也应当作为文件长期管理和迁移。因此,元数据的迁移应当作文件本身一样进行,从计划到实施和完成,分为三步:迁移准备、执行迁移和迁移完成阶段,具体内容包括:
3.1 迁移准备。在迁移前的准备阶段,数字档案馆应根据迁移电子档案重要特征选择迁移元数据数量和内容。对元数据的完善程度、来源、从系统中如何抽取、以什么格式迁移等问题需要明确。理想的情况是数字档案馆系统本身在运行和维护中就依照一定的元数据规范建设,系统中元数据已经生成完善,直接导出进行迁移即可。而在电子档案本身元数据并不完善的情况下,档案管理人员需要与系统研发维护人员共同协商决定元数据的提取方法、格式和需要人工补充的元数据。
当明确迁移元数据后,应当制订正规元数据迁移计划,对元数据迁移的过程、记录、质量控制和责任人员等问题必须予以明确说明,确保迁移过程有法可依。对于在迁移过程中,收集、补充、记录元数据的方法和规程都应当做出明确。为确保电子档案凭证价值,迁移过程中,源元数据是不能随意修改的,新电子档案的元数据会发生变化,例如格式元数据从bmp变成jpg,这种新变化的元数据就需要体现在新文件携带的元数据中,对于何人、何时有权生成新的元数据都应记录在案,明确其责权。
关键词:元数据;数据仓库;数据共享
中图分类号:TP
文献标识码:A
文章编号:1672-3198(2010)13-0189-02
1 引言
随着我国金融市场的快速发展,不同金融部门之间数据共享的问题越来越严重,无论是经济主体在经济业务方面,还是金融政策的决策与金融监管的进行,都需要大量与准确的金融数据。于是金融数据的共享问题成为了当前的焦点。而数据仓库作为数据共享的最佳方案成为了需要发展的技术,而数据仓库的前提,元数据模型的研究也日渐深入。
元数据被定义为data about data。它被应用在各个不同的领域。而在数据仓库领域元数据则用来描述数据以及数据环境。元数据及其管理是数据仓库领域中非常重要的一个方面,它贯穿于数据仓库的设计、开发、运行和维护的全过程,对元数据组成结构的研究以及统一管理已经成为一种迫切的需要。在数据仓库领域,元数据记录着源数据库与目标数据仓库的数据模型、物理数据结构及其相关匹配模式等重要信息。
通过针对金融市场中存在的信息流的分析与归纳,通过使用自主设计的金融元数据模型MMF(Metadata Model of Finance),来将不同类型的数据转化为元数据形式,并通过XML格式从而方便数据仓库的建立以及数据共享的进行。
2 信息流分析以及信息归纳模式分析
在建立元数据模型前,必须先对该行业有足够的了解,清楚其业务流程以及涉及到的信息流,再对涉及到的元数据进行归纳总结。才能够实现数据仓库对决策的支持。并根据此来建立起正确的元数据模型。因此我们先对金融市场中存在的经济主体以及涉及到的经济主体的信息流进行总结分析。
2.1 信息流分析
参与金融活动的经济主体,按照其所属行业的不同,主要分为中央银行,商业银行,证公司,投资基金,信托投资,金融租赁公司,非金融类企业。他们都参与六种金融市场业务。六种金融市场业务分别是货币市场业务,外汇市场业务,商业市场业务,证市场业务,信托租赁业务,保险市场业务。
在分析了所有金融行业的信息流之后,我们将每一种不同行业的信息流分为6个部分的信息。而所有行业的信息流的这6个部分的信息一起将完整的描述所有金融行业在参与金融业务时候的所有信息内容。这六种信息分别是政策信息、交易信息、结算信息、财务信息、账户信息、资金信息。而这些信息具体所包含的内容在接下来数据类型的详细构造中将进行叙述。而这六个部分与金融主体信息流之间的关系见图1
通过图1可以看出,不同的经济主体所包含不同种类的信息,通过这些信息,可以清楚的描述每种信息流的内容。2.2 信息归纳模式分析
在MMF中,将金融数据的归纳分析按照其信息的来源,分析手段的不同分为初级、中级、高级三种级别。初级,来自某个数据集合的单一类别,分类统计OLAP等。高级,来自某个数据集合的多个类别,OLAP 关联分析。综合级,来自多个数据集合的多个类别以及低级分析结果,各种数据挖掘分析手段。
3 MMF的构成概况
在经过了对金融数据流的分析以及归纳之后,MMF模型的设计就应运而生了,参照Dublin Core的要求,该模型要实现金融元数据的语义和语法方面的要求,体现各个元数据之间的内在逻辑关系。
3.1 MMF的目标以及特征
设计MMF的目的就是建立一个统一的元素据模型,供各个不同的金融行业进行使用建立起自己独特的元数据体系,并且在统一的语法条件下建立数据仓库以进行金融数据的共享与数据分析。而作为一个元数据模型,具体应该涉及的是统一的元数据模型以及如何转化为满足自己行业要求的元数据模型。因此MMF要满足以下的特征。
(1)多样性。MMF 中语意模型与编码方法相分离,未对编码的实现做出限制, 保证了MMF 实现的多样性, 语意模型可对应多种编码绑定方法, 如XML 编码绑定。
(2)完整性。MMF 的内容, 应当是行业内部所以的数据流和处理算法的全集, 在映射到具体行业时, MMF 或其子集可直接作为该行业的元数据模型加以修改, 以提高实现的效率和质量。
(3)高通用性。MMF的内容, 层次清晰、通用性强, 可以保证元数据的不同编码方式都具有较好的语意互操作性, 也保证了不同编码间转换方法的便捷性。
(4)高稳定性。作为金融行业通用元数据模型, MMF中包含的元数据应以合理的方式进行管理与配置, 以保证模型自身的稳定。
(5)可扩展性。MMF 能够随着该行业业务内容的增加、业务逻辑的调整, 各种新的数据类型与分析模式的出现, 方便地实现对模型自身内容的扩展、更新, 以保证模型的有效性。
3.2 MMF的总体结构
在MMF中,所有的信息根据其描述内容的不同分为6个部分,即模型信息类别、数据信息类别、变量标准类别、处理过程类别、角色权限类别、数据组织类别。各个信息之间相互独立。MMF的模型MMF的构造方法是自上而下, 逐步细化的。在进行分析时, 可以归纳为:MMF 基本构成单元为数据元素, 数据元素根据相互间语义的关联, 构造出类别表、定义表和词汇表等中间部件, 逐级综合, 最终构成MMF 的整体。MMF对所有的中间部件都给出了引用名称、定义等方面的规范, 而在于数据元素部分, 又给出了数据类型和取值范围的说明。MMF的总体结构可以用表格的形式描述,而采用树状图的方法, 则能更加直观地体现出其结构的层次性。
4 部分元数据类别的详细构造
在这里我们针对变量标准和处理过程两个类别进行具体实例的研究,对元数据的具体语义特征进行更加细化的划分,以实现对其功能的具体描述。
4.1 变量标准类别的构造
在MMF中,根据收集到的信息来源不同,将所有的信息分为6个类别,作为变量类别的子类别。见表1所示。
4.2 MMF与Dublin Core的映射关系
Dublin Core 到MMF的映射。Dublin Core是较早的元数据规范, 最初用于对与网络文本资源有关的元数据进行描述, 其中的数据元素包括标识符( Identifier) 、标题(Title) 、语种(Language) 、描述(Description) 、主题及关键字( Subject and Keyword) 等15 类, 每个元素都有一个描述性的名称, 用于对该元素的通用语义理解进行表述。为了提高互操作性, 许多数据元素都有相关的词汇表。近年来, Dublin Core 得到了不断扩充, 应用范围也日益扩大。作为金融行业的元数据模型, MMF是依照Dublin Core 规范的构造方法和对元数据的分析而建立的, MMF中所包含的数据元素虽然与Dublin Core 规范中的数据元素在语义、结构等方面存在着不同, 但仍可建立一定的映射关系。这种映射关系的存在, 对于用户正确理解MMF的结构, 建立自己的元数据模型, 具有较大的帮助。
5 发展趋势
MMF 是根据数据仓库理论和Dublin Core 规范的要求, 在对金融业务知识进行了分析与总结的基础之上, 提出的适合金融行业通用的元数据模型。利用该模型, 可以为不同金融行业数据仓库项目的建设提供指导, 从而提高工作效率。由于MMF 所包含的元数据来源较广, 性质多样,如何利用这些数据分析出有效的结果,特别是在进行非结构化信息(如政策信息)的元数据的归纳时, 如何确保其内容的准确、合理、快速的被分析和理解,并得到有效的结论,将是今后研究的重点。
参考文献
[1]Dublin Core Metadata Element Set ,Version 1. 0 :Reference De2、scription (EBPOL). http :PP dublincore. org PdocumentsP,2004-05-24.
[2]盛昌银. 都柏林核心元数据――网络信息资源组织的新标准[J ].现代图书情报技术,2003,(1):4447.
[3]David Marco(美).元数据仓储的构建与管理[M].张铭,李钦等译.北京:机械工业出版社,2004.
[4]彭蓉,刘进等译.John Poole,Dan Chang等著.公共仓库元模型开发指南[M].北京:机械工业出版社,2004.
[5]David Marco(美).张铭,李钦等译.元数据仓储的构建与管理[M].北京:机械工业出版社,2004.
[6]Extensible Markup Language (XML) 1. 0 (Second Edition) . W3C ,2000.
[7]Alexander R. Dunegan. A Metadata Approach to Managing XML in Relational Databases. MS Thesis ,Emory University ,August ,2003.
[关键词]数字环境 编目员 未来 元数据编目员
[分类号]G254.3
1 数字环境对编目工作的冲击和影响
1.1编目对象的多元化
在数字化网络化的环境下,编目对象的类型日益丰富,除了图书、期刊等印本书之外,还包括各种音像数据、数字资源和网络资源。数字资源的发展给传统的编目工作带来了挑战。以往的编目标准和规则对数字化资源的揭示不充分,我们要完成信息组织的职能,实现编目的目的,就要熟悉新的数据格式和其他各种信息组织的方法。
1.2组织数字资源的技术和工具的发展
CORC(Cooperative Online Resources Cataloging,联合联机资源编目)项目证明了机器收割数据自动生成记录和主题词自动排序的潜力。开放文档创始项目展示了数字资源共享和收割元数据的美好前景,预印本的出现为互操作指出了可行性方案。OCLC的下一代编目计划已经尝试由合作出版社、供应商提供ONIX格式的数据,OCLC尽可能通过数据挖掘与数据映射的方式自动强化数据。这些数字技术的发展和应用使得编目数据可以通过程序自动获得或者通过ONIX格式出版的专业目录转换后作为编目数据,为编目数据的自动生成提供了可能。
1.3编目来源的竞争
书目数据的生成曾经是编目员的专利,而现在这种局面被打破。书商、出版社以及专业的编目公司不仅可以提供编目数据,而且还可以提供外包服务。这些外部的编目来源给编目员的工作带来了很大的冲击,编目员的原始编目越来越少,而套录在编目工作中的比重日益增加。在Web2.0理念催生之下产生的社会编目网站,例如Librar-ything和豆瓣等,用户可在线搜索书目信息,也可以补充、修正现有书目信息,还可以对图书进行点评、评级、加标签、提供书评、作者信息、上传图书封面等。从某种意义上说,通过这种方式的参与,用户已经变成了书目数据的生产者。这种社会编目的网站越来越受到用户的喜欢,可想而知,随着用户的参与,这种用户贡献的书目数据将会越来越丰富。
1.4联合目录的发展
联合目录本地化是最近的一个发展方向。这种趋势提倡放弃本地目录,直接采用联合目录。强调目录作为更大信息空间的一部分,单个的图书馆不再强调本地目录,而是把这种多元化的目录整合为一个大的联合目录,实现跨机构共享,并且能够提供在线服务。OCLC已经在2007年与多个图书馆合作实验Worldcat Local,迈开了联合目录本地化的步伐。
1.5用户信息查询行为的变化
在Lib2.0时代,以用户为中心的理念深入人心,更加注重对用户信息需求和信息行为的研究。根据OCLC2003年、2005年、2007年的相关调查报告,用户信息习惯和信息行为的变化如下:①自网络出现,用户利用图书馆的整体趋势在减弱;②用户认为网络搜索引擎能提供比图书馆更丰富、更高质量的信息,并具有更快的速度;③用户认为随着越来越多资源的数字化,网上获得高质量信息的数量也在增加,且无限量供应;④用户希望一步到位地、无缝地、个性化地获取所需信息;⑤用户不满足利用信息,还希望增值、评价、创造、与他人互动和分享信息。用户的这些信息行为的变化已经给我们传达了信息:目前我们的目录对于满足用户信息需求的吸引力在降低,已经无法满足用户的需求,亟待变革。
2 编目员的现状
2.1编目部门萎缩和编目技术含量下降
目前图书馆传统的编目部门的核心地位逐渐削弱,编目技术含量下降,编目人员数量减少,编目部门逐渐萎缩。一方面,图书馆图书的书目记录大部分由书商来提供,少数书商不能提供记录的图书,可以通过联合目录下载数据;另一方面,随着近几年编目业务的外包,编目员每天的工作内容变为根据本馆的实际需要对编目数据进行修改和校验,原始编目的比重很低。虽然大型图书馆中原始编目的比重相对较大,但是总的来说,在编目套录普遍化的今天,大部分编目员从事的都是套录的工作。可以预见,在不久的将来,随着编目数据生成的自动化,编目员传统的编目工作更是难以为继。国外的编目部门也存在着同样的问题,美国研究性图书馆协会的编目部门在2003年秋进行的一次调查结果显示,当前专业编目员的数量正在减少,并且三分之一的编目员在未来的十年面临退休。
2.2被排除在数字图书馆建设之外
在数字图书馆的建设热潮中,编目员还在彷徨并努力地寻找自己定位的时候,图书馆的其他部门(参考咨询部、特藏部、系统部等)已经走在了前列,参与到数字图书馆的建设中,并且他们的工作已经涉及到编目员擅长的领域。例如为数字资源建立索引、建立数据字典、控制词汇等等。而编目员却常常被排除在这些项目之外。虽然编目员具备参与这些项目的能力,有着独特的技术,但是他们自身却意识不到。由于编目员不关注编目新的发展趋势和应用前景,只囿于传统的编目领域,因此没有关注到数字图书馆建设中所需要的是元数据,不去理解元数据和传统编目之间的关系,不能将传统的编目思想成功应用到元数据项目中。其实编目员有着丰富的设计书目数据库的经验,能够理解控制词汇和知识分类表的重要性和结构,能够从理念上平衡标准和互操作之间的关系,因此他们在数字图书馆的元数据领域大有作为。
2.3关注方法而忽视用户需求
作为编目员,要想把数据做得完美,就要掌握很多编目规则和标准。编目规则只是作为方便用户检索的手段和方法,最终目的却是满足用户对于资源的需求。但是现实工作中,编目员却往往本末倒置,太关注标准和规则,而忽略了编目的目的和初衷,盲目去运用规则,结果却不利于读者检索。因此当前的目录往往只代表着编目员的观点,而很少反映用户的观点。
Ingrid Hsieh-Yee指出我们当前的目录作为用户和信息资源之间的桥梁,通过精确的资源描述(包括描述细节和主题信息)来帮助用户检索信息。如图1所示:
很显然该种类型的目录没有考虑用户的信息需求和行为,因此只代表着图书馆员的观点,所以依托这样的目录建立的检索系统缺乏和用户之间的互动。
如前所述,用户的信息查询行为已明显改变,目录在涵盖更多信息资源的同时,还要更多挖掘用户的信息需求,理解他们的信息行为,在此基础上编制目录,设计检索系统。而未来的目录范围应该拓展到考虑用户的信息需求、信息利用行为、信息利用环境、信息资源以及管理和使用的元数据,如图2所示:
3 编目员未来的定位――元数据编目员
3.1从编目部门名称来看
斯坦福大学图书馆的技术服务部下设访问部、采访部、元数据部和典藏部。元数据部下设四个单元,分别为分类、数据控制、资料控制和元数据发展。宾夕法尼亚州立大学图书馆设有编目和元数据服务部,该部下设六个单元,分别为加工、地图团队、单行本团队、音乐视听资料团队、连续出版物团队和特藏团队。麻省理工大学图书馆设有编目与元数据服务部,该部门下设有单行本编目、连续出版物编目、特藏编目、数据库维护及元数据。康奈尔大学图书馆技术服务部下设有采访编目、数据库管理服务、电子资源和连续出版物管理及元数据管理。
国内图书馆目前编目部还未有名称的变化,但是中国科学院国家图书馆资源建设部的工作内容已经类似于上述几所图书馆的编目部门,该部下设三个业务组,采访组、书目中心组和数据库组,除了完成文献的采集、编目、数据加工等任务,还承担中科院系统电子资源集团采购、联合目录数据库和Sciencechina服务系统建设等工作,这些已成为该部门的品牌服务与产品。该部门还参与了中美百万册数字图书馆建设项目、中国数字图书馆建设标准规范等项目的建设。
3.2从社会相关机构招聘启示来看
通过GOOGLE搜索“metadata cataloger”,共得到五个相关职位的信息,分别是:①规范控制和元数据编目员。该岗位职责为用LC分类法、LCSH、AACR2、MARC格式、OCLC和CARL,对电子资源进行原始编目,包括用DC元数据和其他的元数据标准,负责编目控制包括评估和编辑规范记录。②音像资料元数据编目员。职责是数字化并且描述存档的视听资料;用DC元数据标准描述资源并且创建技术和管理元数据。③元数据/编目馆员。职责为对元数据模式和标准提供专业指导并且在大学和图书馆中应用;领导元数据项目,对单行本进行原始编目,整合各种形式的资源。④电子资源和元数据编目员。职责为成为部门的专家并且能解决编目控制的相关问题,解决电子和数字资源相关的元数据问题;制定电子资源编目的相关政策并带领图书馆分析和使用元数据来访问数字资源。⑤连续出版物和元数据编目员。职责为完成连续出版物、远程电子资源、网址的原始和套录编目;发展、计划和领导元数据的整合、使用及其在图书馆和媒介服务的应用;和其他部门的人员合作完成数字资源的元数据项目,表达和解决访问问题,整合电子资源。
3.3从相关文献来看
Leysen JM和Boydston JMK在文献中指出元数据编目是正在出现的编目的未来角色,编目员参与有关元数据的数字项目中,能帮助发挥编目员的价值。O’Bryan A和Palmer KL描述了他们如何雇佣元数据编目员从事数字项目,阐释了元数据编目员的角色,他们如何计划和实行数字资源的描述,训练套录员创造元数据提高传统编目部的技术和他们服务的可见性。Hsieh-Yee I定义了数字时代编目员在信息组织中的角色,即运用多种编目标准对各种形式载体的资源进行编目。更具挑战性的是他们要把这些不同格式的资源整合到一个系统之内,解决互操作的问题。他们还要具备一定的技术能力,能够开发元数据模式并且应用这个模式组织数字馆藏。如果他们经验足够丰富,还可能成为元数据项目的管理者。
4 透视元数据编目员的职能和资格
4.1元数据编目员的职能
综合以上分析和Calhoun K对元数据编目员职能的描述,总结元数据编目员的职能如下:①由于使用数据商和出版社提供的自动化编目的数据在不断增加,元数据编目员的重点是要帮助建立新型的信息检索和系统,关注用户信息行为的变化,创建新型的元数据。②图书馆技术服务、公共服务、资源建设和信息技术部门之间的界限模糊,取而代之的是以项目和团队为基础的工作环境。元数据编目员的服务范围将不断扩大,要积极参与校园内外的项目;侧重于元数据咨询工作,弱化元数据的生成工作;和校园计算机中心的技术人员紧密联系,减少传统编目的职能。③元数据编目员要利用各种手段提高信息系统的可用性,例如索引、数据组织和管理、知识分类表、实用分类法等;提高系统的可视化浏览,利用元数据实现系统之间的连接。④元数据编目员要熟悉信息检索技巧也要熟悉IT技术,积极的参与数字图书馆的研究项目中。⑤元数据编目员要开发元数据标准,积累最佳实践的经验,构建资源整合的框架,开发互操作工具。
4.2元数据编目员的资格
总结以上五个招聘启示和有关文献对于元数据编目员的资格要求,可归纳出要想成为一个元数据编目员应该具备如下知识和技能:①熟悉传统编目标准和格式,有一定的原编实践经验,例如AACR2、MARC、国内的编目条例;②熟悉主题分析和分类、规范控制和控制词汇的知识,例如LCC,中国图书馆分类法,LCSH,中国主题词表和OCLC/MARC标签;③熟悉元数据标准和元数据项目,例如DC,EAD,MARC,METS,MODS,OAf等,了解元数据互操作,元数据转换的知识和系统整合时各种资源所面临的问题,元数据项目的评估问题;④熟悉集成图书馆系统的OPAC和在线书目服务,例如OCLC;⑤具备数字资源长期保存和知识产权的知识。熟悉长期保存相关的标准,例如PREMIS和MIX;⑥具备一定的计算机硬件和软件知识,能和图书馆的技术服务部门沟通,最好具备写脚本和编程的经验;⑦具备至少一种外语知识。
当人类具备了获取海量数据和处理规模化数据的能力时,以大数据应用为特征的信息技术就会走进我们的日常生活与工作之中。自然的、真实的数据能反映出客观规律,是大数据之源;虚假的、杜撰的数据是污染源,必须从各个层面根除。安全生产领域尚没有普遍的、规范的数据源获取体系,因此,必须从数据源建设入手,获取真实的数据。
规范安全监管信息工作体系
安全生产监管监察涉及行业领域多、地域面积广、风险种类复杂、监管体系不完善等,于是长期陷入被动的“治疗急诊”和疲惫的“预防流行”困惑之中。任期压力、任期风险主宰了决策思维,“预防为主、综合治理”便缺乏理性共识,固本强基、长远谋划、共治久安则成为“奢望”。
政策短期化、碎片化导致全系统的基础能力弱化,难以构建系统、完整、明晰的行政监管逻辑关系,安全监管信息化则无源可溯。信息化改变的是服务社会的方式,其价值充分体现在数据的真实性、实时性和集成性,精、准、广是互为制约的三要素。
实现安全监管工作的现代化,既要重视信息化工作平台建设,又要重视新技术集成创新的普及,并且要遵循“由下而上建设,由上而下指导”。边建、边用、边完善,在“用”字上下功夫,力求“好用、管用、实用”。
从安全监管重中之重破题
有效遏制重特大事故是我们必须完成的答卷,解决“查、防、治、救”科学化、信息化、法制化就是重中之重。科学地解决“查什么、怎么查、查哪里?测什么、怎么测、测哪里?治什么、怎么治、治哪里?”,是精准的基础;借助信息技术实现指挥“一盘棋”、决策“一张图”、行动“一张表”,互动“一张网”,是重要的支撑;完善“依法治安”,实现全方位的党纪、法规威慑是重要的保障。
“查、防、治、救”的核心环节是科学建立查的目标、指标、周期、处置等工作体系,至简致用,保障数据源的价值。与时俱进地集成创新测、查等手段,不断提高效能和质量是科研工作的重点。面对多行业、多领域的重大风险源测控需求,四川省安全科学技术研究院于2012年设立了“重大风险源测控四川省重点实验室”,从矿山露天头顶风险源入手,集成高分卫星、三维激光、地下物探三项技术优势,构建了“天空、地表、地下”(三界)多元数据诊断体系,创立了“诊断―分析―设计―治理”(DADT)循环管控模式(见图1),实现了危险源定量化的预测、预警、预防之科学管控目标,全面提升了安全监管监察能力和信息化管控的水平。
全寿命周期的数字化管控
矿山、危化及交通运输等领域普遍存在危险源分布广、点位多、诱发因素复杂及人力难以遍及等共同特点,三界测控技术的处理能力为我们提供了湫碌募际跏侄巍T诨袢〖喙芏韵蠹负纬〖肮丶状态参数的基础上,有针对性地分析并研判风险演化规律,及时制定合理的化解、防范和治理措施。
概括而言,就是通过太空高分卫星周期性获取区域总体数据(m级分辨率)筛查风险,掌握域内风险演变;运用地表三维激光扫描技术,针对已发现并确定的风险实施精准测控(精度mm级),掌握风险具体部位、规模、趋势和系统关联;需要时再运用地下地球物理探测技术(m级分辨率),透过现象看本质,由表及里研判风险诱因(见图2)。
据此,建立由太空、地表、地下“三界”空间测控方法相融合的重大风险源“健康档案”,持续开展稳态数据与实时(或周期性)监测数据智能比对,实现全过程精细化管控,并进行精准预报、预警,针对性地开展防灾减灾设计与综合治理,构建DADT循环管控工作体系,为科学决策和应急处置提供全面的、可靠的数据支持。
1 数字档案馆元数据标准的概念和功能
元数据,即“Metadata”,指“长久的、在领域内或领域间支持文件的形成、注册、分类、利用、长久保存和处置的结构或半结构的信息”。[ ]而元数据标准指“说明元数据元素之间关系的逻辑方案,通常建立元数据的语义(使用和管理规则)、语法和值的完备性等”[ ]。元数据标准核心功能是推动数字档案馆系统间元数据的互操作。元数据互操作指“元数据可以在不同机构和不同类型的信息系统之间顺利地移动和交换”[ ]。在互操作过程中,必须首先明确采用何种方式、语言(例如XML),如何解释元数据等一系列问题,系统之间才能顺利地理解交换的元数据。元数据标准就是对这些问题进行说明和规定的规范性文档,内容包括元数据值的定义方式和语义、值列表、分类词表、控制词汇等,以确保交换元数据的质量和一致性理解。
2 国际数字档案馆元数据标准的主要类型及项目
数字档案馆应用的元数据分为三类,包括:①档案机构移交的电子文件管理元数据;②数字档案馆对接收档案著录形成的著录元数据;③数字档案馆在保管电子档案过程中形成的长久保存元数据。
2.1 文件管理元数据标准及项目。文件管理元数据标准的研究具有代表性的是美国电子文件专家戴维?比尔曼(David Bearman)主持的“电子文件保管证据性功能需求”[ ],该项目目标是明确确保电子文件凭证性所必需的元数据。该项目贡献包括:①提出元数据的权威来源:提出从国家法规标准等文献中总结出电子文件的凭证性需求,继而从具体需求推导出相应元数据的方法[ ];②建立元数据标准模型:提出元数据业务交流模型(Business Acceptable Communications)(以下简称“BAC”),可用于指导元数据标准制定。在澳大利亚,莫纳时大学学者苏?麦克米希(Sue McKemmish)开展了元数据研究和训练项目(Research and Training Project),该项目在文件连续体理论基础上提出“法规三元组”模型,将元数据划分为四大实体:业务、责任者、文件、法规标准,并分别研究了这四大实体应具备的基本元数据元素。这种创新性的元数据模型超越了对文件本身的描述,也描述文件的职责、政策、人员、业务活动等,促使人们对电子文件管理元数据的认识上升到一个新的层次。该模型也被写入国际标准化组织ISO 23081元数据系列标准。
2.2 著录元数据标准及项目。著录形成的条目其实就是元数据,国际著录元数据标准以国际档案理事会(ICA)颁布的标准为代表,主要包括:
(1)国际通用档案著录规则(以下简称“ISAD”(G))。该标准主要用于数字档案馆电子档案元数据著录,包括二十六个元数据元素,七大著录项(标识、背景、内容和结构、利用和使用条件、相关材料、注释和著录控制)。
(2)档案责任者规范记录标准(简称“ISAAR”(CPF))。该标准主要是针对档案相关的责任者背景信息进行著录,包含四大著录项(标识、说明、关系和控制)。该标准不仅提出著录责任者元数据信息在信息交换时,作为检索点上的重要意义,也提出了单独捕获和维护档案背景信息元数据,并且保持和档案自身著录元数据信息链接的重要性。
(3)档案职能著录规则(简称“ISDF”)。该标准主要是对机构业务职能进行著录的元数据标准,该标准对职能的定义是由法律、法规、政策授权的,确保组织机构可靠性的责任、职责或任务[ ]。该标准提供四大著录项,二十三个元数据元素对职能信息进行著录,包括职能类型、名称、分类、职能日期、详细说明、相关职能等,既可以著录机构的高层次社会职责,也能够记录某一次业务活动。
2.3 长久保存元数据标准及项目。长久保存元数据标准最具代表性的是国际联机计算机图书馆中心(OCLC)2003年发起的长久保存元数据实施战略项目,了《PREMIS长久保存元数据数据字典》[ ]标准,已成为国际长久保存领域事实上的标准,全世界已经有48家机构正式注册为PREMIS标准的用户[ ],其中包括美国电子文件档案馆、瑞士国家档案馆、苏格兰国家档案馆、新西兰档案馆等多家机构。PREMIS标准将长久保存元数据抽象为五个实体:知识实体(Intellectual),对象(Objects)、权限(Rights)、主体(Agents)和事件(Events),并对后四个实体的元数据进行了详细说明。
3 国际数字档案馆元数据标准的现状分析及未来趋势
3.1 以文件元数据为主体的标准体系初步形成。 从目前国际对这三种元数据标准的研究来看,文件元数据标准是主体,因为文件元数据标准中蕴含着丰富的文件软硬件形成环境、业务职能背景、责任者等信息,因此,立档机构如果遵照科学的文件元数据标准,移交完善的文件元数据,那么,数字档案馆只需在文件元数据基础上,补充部分的后端著录元数据,以及长久保存过程(转化、迁移、利用)中形成的元数据即可。而且从这三类标准来看,标准之间存在元素重叠的现象,因此,元数据完全可以由立档机构一次生成,数字档案馆重复使用。强调文件元数据标准在标准体系中的重要作用在于:①确保电子档案的凭证性,文件的形成环境,即所谓的前端,是确保电子档案凭证性的关键点,文件元数据标准可以控制前端的凭证性;②促使数字档案馆工作重心发生改变:数字档案馆工作重心可以转变为在已经生成的文件元数据基础上,对其进行验证和补充后续元数据,而不必像以前那样从头开始著录,避免浪费人力物力,而可以把精力放在更有价值的工作上。
3.2 元数据标准模型的兼容性不断增强。早期,文件、著录和长久保存元数据标准的研究是并行和相对独立发展的,随着领域之间合作的增强,现代元数据标准越来越有统一的趋势,最明显的特征就是元数据标准模型的设计思想越来越接近。以文件和长久保存元数据标准的模型为例进行比较说明,如表1所示。
如表1所示,文件管理元数据标准模型以ISO 23081标准[9]“法规三元组”模型为代表,长久保存元数据标准模型以PREMIS模型为代表,两者比较发现:两个模型都采用了实体关系法描述元数据,实体即“任何存在的,或过去存在的,或可能存在的具体或抽象的事物,包括这些事物之间的联系”[10],元数据标准采用实体来抽象和提炼元数据描述的对象,例如ISO 23081模型将文件元数据描述对象简单抽象为四个实体,即:文件、主体、业务和法规标准实体,其中每一个实体都应配备相应的元数据,例如文件实体应配备文件题名、形成时间、主题等元数据。同样,PREMIS模型也对长久保存元数据描述对象抽象为知识、对象等五个实体。从这两个模型的实体分类来看,存在一定的对应关系,例如两个模型都提出应具备主体(Agents)、业务(Business)两个实体,虽然实体的语义略有区别,但是其基本思想是一致的,都强调主体(人员或系统)、业务事件元数据在文件管理和长久保存活动中的必要性。而其他实体,例如文件、法规标准、权限实体等也都可以找到类似的对应实体。
这种模型实体之间的对应关系,体现了元数据标准之间对于元数据分类、功能的一致理解,这也促使标准的兼容性增强,元数据元素映射、交换等一系列工作简化。并且从目前文件管理元数据和著录元数据标准的模型关系来看,两者之间的发展更是紧密,早期文件元数据标准BAC模型和著录元数据标准ISAD(G)的多级著录模型相差较远,但当ISO 23081模型出现后,现在两种标准采用的模型基本一致,这种一致性会减少多样化,简化数字档案馆标准应用和管理,正如著名学者Cunningham指出的,“我们需要的是一套互相关联的文件管理和档案著录元数据标准”[11]。
3.3 元数据标准的未来走向和研究趋势。数字档案馆元数据标准未来主要有两个热点方向,包括:
关键词:CWM;元数据;模型;数据仓库;商业智能;血缘关系
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)02-0254-05
1 元数据概述
元数据即关于数据的数据。元数据不仅仅是描述数据类型、数据描述等表面信息,还描述了数据上下文的信息,包含数据所在领域中数据管理员更关注的信息。元数据是描述数据结构、数据来源、应用方法及上下过程的数据,元数据按其用途划分可分为四类:项目元数据、操作元数据、技术元数据、业务元数据、
这四种元数据(技术元数据、业务元数据、项目元数据和操作元数据)的具体描述如下:
1)技术元数据:技术元数据是描述BI系统中技术领域相关的概念,主要包括数据结构,数据来源、数据存储和技术数据的方方面面。
2)业务元数据:业务元数据是描述BI系统中业务领域相关的概念,主要包括业务术语、信息分类、行业规则、指标定义等。
3)项目元数据:项目元数据是描述BI系统中项目知识领域相关的概念,主要包括项目描述、项目的文档、项目的明细,项目成员信息等等。
4)操作元数据:操作元数据是描述BI系统中操作知识领域相关的概念,包含ETL的操作信息、前段展现的数据处理环节,操作元数据主要指对数据动态过程的描述信息。
如上图所示,在整个BI系统中元数据管理的范畴是极其广泛的,从底层到应用层都有其用武之地。我们首先看BI系统的数据来源,就可以包含源系统信息中的库表信息,接口信息,维度信息等。再到数据采集层,元数据需要清楚的记录DW的映射关系,ETL程序信息,数据转换清洗的规则等。再到我们自己的数据存储和管理层(数据仓库),元数据需要清除的描述DW数据的物理结构、数据字典、数据安全级别、客户信息、资源目录等详细信息。到应用服务层,元数据则包含数据分析模型、KPI关键业务指标等。最后到门户管理和用户层,元数据包含安全认证、访问控制等信息。
由上可见,元数据用于支持分析系统的技术活动、管理活动和业务活动,其应用覆盖数据分析系统技术、管理和业务等各个方面。
2 元数据管理规范CWM介绍
2.1CWM概念
3 元数据模型设计
元数据模型是数据分析系统元数据管理模块建设的基础,用于规范元数据库内部对象、关系、规则和操作等多方面的内容,其主要包括四个层面:基础层、获取层、数据层和访问层。此外,可以根据不同的场景进行达到元数据包的可配置性。
元数据模型需满足以下要求:
1)开放性。元数据模型以CWM作为基础模型,能够与其他各类IT系统进行互操作;
2)适用性。元数据模型支持在CWM基础上进行扩展,从而描述数据分析系统自身特有的内容;
3)标准性。面向为了元数据互通的需要,以CWM为基础建立数据分析系统核心元模型,形成关键元数据对象的统一元数据标准。
3.1元数据模型与CWM的关系
元数据管理模块体系结构主要有以下四层:
1)元数据获取层
元数据获取层位于整个体系架构的最底层,元数据获取层抽象概括了元数据获取的各种途径。业务和管理元数据通常以手工方式获取,技术元数据覆盖数据源系统以及经营分析系统数据的整个生命周期,要求以自动方式获取,如数据字典和数据模型等。
2)元数据存储层
存储层定义了元数据存储所遵循的元模型,规范从获取层得到的各类元数据的属性要求和存储格式要求,包括业务元数据、技术元数据和管理元数据。核心元数据模型对数据仓库中统计分析等关键数据对象进行模型定义和规范。
3)元数据功能层
元数据功能层为前端元数据应用提供了基本的功能支撑,主要包括基本功能、分析功能、质量管理、服务接口和权限管理五个部分。其中,元数据基本功能包括元数据维护、元数据的查询、变更情况管理、维度统计分析和使用情况统计;元数据分析功能包括数据血缘分析、影响分析、数据地图展现、要素关联性分析、差异性分析、主机拓朴分析和指标一致性分析;元数据质量管理包括一致性检查、关系健全性检查和元数据属性检查;元数据服务接口包括数据封装元数据服务接口和数据地图访问服务接口。
4)元数据应用层
在元数据管理模块功能层的支持下,元数据应用层通过调用功能层的功能,对元数据管理的实际问题提供应用解决方案,主要包括指标库管理、业务术语自助学习、维表库管理、接口管理、数据分析系统元数据互通、辅助应用优化、辅助安全管理、基于元数据的开发管理和数据质量管理等。
3.4元数据分析例子简述
1)图形血统分析
图形血统分析是通过图形化的方式展现数据的来龙去脉,血统分析可以使我们更好的知道数据流转的流程和数据形成的过程。方便用户进行数据回朔和信任倒查,即满足下面两点:
1)查看数据从哪里来,即数据的加工过程,了解数据的来龙去脉,如某个指标是否来自详单数据。
2)增加用户对数据的信任度,更好地使用数据,如KPI指标
2)图形影响分析
形影分析即当用户希望对某个元数据进行修改和维护时能清晰的了解其对数据仓库及应用程序的影响。有助于进行执行前的评估和确认工作,即实现以下两种价值:
1)预览元数据对全局的影响,有助于执行变更前充分评估,及与相关人员事前沟通。
2)如接口文件、库表、Tcl程序、报表、指标等对其他数据或程序的影响。
3)图形映射分析
图形映射分析主要应用于数据抽取、转换、加载中的数据内部映射关系的体现。体现具体的加工过程,方便用户了解整个加工过程的细节。进一步增强ETL和报表数据的信任度和回朔性。
1)映射分析:查看ETL程序内部的映射关系,了解数据加工过程的细节
2)帮助技术人员了解数据处理过程涉及到哪些对象、数据转换是否正确
3)帮助业务人员了解数据如何来的细节,进一步增强对经ETL处理而来的指标、报表数据的信任度
4 总结
本文通过元数据管理规范CWM的元数据模型引用,结合现实业务系统的需求对元数据管理平台进行元数据范围的扩展和组织,实现元数据管理平台从技术探索到应用实现的建设过程。证明以CWM的元数据模型实现的元数据管理系统不仅在业务使用上得到广泛的提高,更在数据平台、BI系统中的交互更加的顺畅、便捷。同时我们也可以看到在元数据管理领域的需求更新很快,该文为元数据的探索奠定了技术基础。
参考文献:
[1] 余宇莹.基于CWM的企业元数据集成研究[D].长沙:国防科技大学,2006.
[关键词]OAI-PMH本地资源元数据互操作
[分类号]G250.7 TP391.3
1 OAI―PMH简介
OAI是一个旨在促进网络信息资源与共享的合作组织,意为开放文档先导,1999年10月由美国图书馆和信息资源委员会(CLIR)、数字图书馆联盟(DLE)等发起,在SantaFe召开的一次中心议题为“电子出版文献的互操作”的会议上第一次提出了OAI设想,主要讨论了元数据搜寻(MetadataHarvesting)方法,于2000年9月形成了“Santa Fe协议”,即最早的Alpha版协议。2000年的ACM(美国计算机学会)数字图书馆会议上,对在实现“SantaFe协议”过程中遇到的问题进行了审查和讨论,并于2001年1月Beta版,即1.0版,2001年7月了Beta2.0版,即1.1版,2002年6月了产品版,即2.0版,目前为OAI-PMH协议的最新版本,由于广泛的应用推动已经成为事实上的标准。2005年3月,Google已采用OAI-PMH协议收割澳大利亚国家图书馆的数字对象仓储数据。OAI的目标是通过元数据搜寻方式实现Web上不同信息机构之间的互操作,提供一个与应用无关的互操作框架。协议较简单,便于OAI提供者的松散与动态加入。虽然OAI-PMH的标准元数据比较简单,以无修饰词的DC为核心,运用于一些复杂的数据结构时存在障碍,但随着电子政务的深化、电子文件的大量产生以及这些数据与OAI之间转换技术的进一步完善和成熟,OAI-PMH在数字资源网络化与共享方面将会有更为广阔的前景。截至2007年10月12日,仅仅是在OAI注册的数据提供方仓储已达715个。
当数字图书馆的定义扩展到包括一些传统对象,例如图像和电子印刷品等研究数据时存在一个需求,即需要链接到通常很大并且基于网络被不同研究机构分享的数据库上,因此基于分布式环境建设和服务的数字图书馆模式是近几年网络信息技术的发展趋势,得到普遍肯定和广泛采用。美国弗吉尼亚理工大学1997年发起的NDLTD(基于网络的博士论文数字图书馆),台湾建立的eThesys系统,均采用遵循统一元数据格式和标准规范,通过OAI-PMH集中元数据分散式的建库模式。我国的CALIS高校学位论文库二期项目、CALIS教学参考信息库等,也采用这种思路和框架,各校可以独立开发自己的系统,但要求各校统一元数据格式,并按OAI―PMH自己的元数据记录。CALIS中心则按照各校提供的BaseURL,通过OAI-PMH收割各参建馆的元数据,将各成员高校的元数据信息集中起来,以此为基础提供检索服务和全文链接服务,从而实现对分布式系统的统一查询。
2 开放性信息系统结构
基于OAI-PMH分布式建库模式属于一种松散的互操作模式,不需要使用统一的数据库系统,也不需要各校人工提交数据。可以在本地建立自己的系统后,按协议规定的格式和提交方式来定义数据,即可实现数据的自动提交。因此,自行开发的大连理工大学(以下简称本校)教参信息管理系统,在稳定运行、具备各项基本功能及服务、较好地满足本校具体情况的同时,其数据资源作为全国教参信息分布式数据库资源的组成部分,必须考虑本地数据资源的开放性,基于相关元数据标准和数据规范,提供开放元数据接口和全文链接接口。
本校教参信息管理服务系统是大连理工大学211工程2期文献保障系统的一个子项目,依据CALIS关于教参书的元数据规范和标准开发设计,目前数据仓库中包含4200余条书目数据和1700余条课程数据,并且链接教学参考书超星电子书数据库,现已能提供2100余本电子版教参书的全文资源。本系统选用SQL SERVER数据库平台,基于IlS,利用ASP及VB技术开发设计,采用B/S和C/S混合架构,运行环境为WindowsServer,具备教参信息及课程信息提交、查询、修改、管理及功能。教参信息管理与服务系统结构设计如图1所示:
基于元数据开放互操作及全文链接需求,系统设计提供OAI接口和OpenCRt,接口,实现本地教参资源元数据及全文的开放性,可以作为支持OAI-PMH协议的数据收割的数据提供者(Data provider),对来自服务提供者(Service provider)的请求做出响应,为远程中心收割系统提供元数据信息。同时作为信源,自建资源系统必须支持遵循OpenURL协议的全记录(全文)链接,使用户检索到元数据记录后,可通过OpenURL技术链接到本地的全文电子书数据库。
3 基于0AI―PMH开放元数据的实践与研究
3.1 OAI-PMH结构
OAI-PMH是一个在分布式网络化环境中获取元数据信息的标准协议,通过定义标准化的接口,本地仓库服务器能够将其元数据有选择地提供给外部应用程序和其它服务器。OAI-PMH并不是替代已有的其它元数据互操作协议,例如Z39.50,而是提供基于HTTP协议上传输XML文件的一种易于实现的方法。遵循OAI协议的系统依据其任务不同,分为数据提供者(Data provider)和服务提供者(Service provider)。OAI请求使用册中的GET或POST方法,至少包括一个谓词,“verb=OAI方法名”的参数,用一个“?”连接在baseURL后面,当使用多个参数时,用“&”连接。对于HTTPPOST方法,参数必须包含在POST的消息体中,成功的OAI响应以OAI要求的格式XML向服务提供者提供元数据,服务提供者“收割”元数据,并基于元数据提供增长服务,基于OAI-PMH的元数据操作结构如图2所示:
OAI接口的主要功能是封装一个响应信息的XML文件,执行对每个请求动作的Verb参数检查、响应处理,OAI-PMH协议定义了6个谓词,完成SP与DP之间的交互。其中,Idenfi,ListMetadataFormats和ListSets提供对存储基本信息的描述,用户协议及其他有关规定。元数据收获的实质性工作是由ListIdentLfiers,G-etRecord和ListRecords这三个谓词完成。
流控制resumptionToken标识,也称之为重新开始标记。一些OAI请求的返回结果是列表,这种列表可能很长,需要分割成一系列的协议请求和响应。分割的方法是在数据仓库
的全局描述XML文件中指定返回记录的最大值。分割的原则是返回结果是一个不完整的列表和一个resumptionToken,但记录必须是完整记录。请求方为了得到完整的列表,需要继续重发一个或多个带resumptionToken的请求,从而得到一个完整的列表。流控制可选属性可能包括总记录数、起始光标、元数据格式、下一个记录的唯一标识符、超时日期等。
Identifier为记录的唯一标识符,metadataPrefix为获得元数据的格式类型,From指定返回记录的开始时间,Until指定返回记录的结束时间,Set用于实现按组选择性收割,可以选择按主题等分组。
3.2 基于OAI-PMH接口结构
自行开发的本校教参信息系统作为数据提供者,CALLS教参元数据收割服务器作为服务提供者,通过本校教参信息管理服务系统的元数据开放接口实现元数据收割。OAI元数据开放接口应具备响应每个verb请求的功能,执行相应的命令动作,检查参数,对非教参仓库中元数据记录所采用的元数据格式的参数,要调用元数据转换模块实现格式转换,并封装一个响应信息的XML文件。
ASP能与任何ActiveX scripting语言相容,除了可用VBSpt或JScript语言来设计外,还可通过plug-in的方式,使用由第三方所提供的其他脚本语言,例如Perl、Tcl等,另外可以通过ADO非常方便地实现数据库的访问。前期系统利用ASP开发WEB程序,因此仍然利用ASP实现系统的OAI接口设计开发。
3.2.1 通过一个XML配置文件对本地教参信息仓库的基本配置信息进行描述包括本地教参信息数据仓库名称、OAI元数据搜寻接口的URL、协议版本、管理人员电子邮箱及最后更新时间等。
3.2.2 创建XSL文件实现元数据映射及XML文件内容格式化控制OAI较多采用数据提供者提供的元数据格式为DublinCoret6l元数据核心集,为元数据信息的提供了统一的接口,是否支持其它格式可由数据仓库自行决定。CALLS制定了高校教学参考书信息管理与服务系统数据规范,其中明确规定了教学参考信息元数据与DC元素对应关系和教学参考书元数据与DC元素对应关系,根据这个数据规范,建立教参信息元数据映射,完成本地教参信息数据格式到DC格式的转换,在两者之间建立起元素及其属性和值间的对应关系,程序上通过创建XSL文件实现元数据映射及XML文件内容格式化。OAI-PMH开放元数据接口流程如图3所示。
在数据库配XML描述文件中,定义了数据仓库的基本信息,包括数据仓库名称、管理员EMAILS、是否支持OAISET、元数据格式、数据库表描述等。在global.asa中利用MSXML创建DOM对象。MSXML是指微软的XML语言解析器,全称为Microsoft XML Core Services,用来解释XML语言。就好像HTML文本下载到本地,浏览器会检查HTML的语法,解释HTML文本然后显示出来一样,要使用XML文件就一定要用到XML parser。不仅微软有,像IBM、SUN都有自己的XMLparser。MSXML 4.0提供了大量的新功能和功能改进,包括对XML模式语言的支持,更快的分析器和XSLT引擎,提供对XML流更好的处理及更好的一致性支持等。
3.2.3 支持OAI-PMH协议的数据提供者采用HTTP协议的方式响应信息中有可能也包含HTTP协议的一些状态信息,比如错误信息。元数据记录信息以XML格式返回,较多采用DC格式,具体的形式有三个部分组成:①头文件(head),由记录标识附(uniqueidentifier)和时间戳(datestamp)组成。记录标识附与记录一一对应,是记录在数据库中的唯一标识。时间戳用于存储记录创建、修改和删除的时间信息。②元数据(metadata),记录的核心部分,存储完整的元数据信息。③关于(about),一般由元数据的版权信息、使用元数据的条件等内容组成。
例如,baseurl?verb=ListRecords&metadataPrefix=oai_dc,解析ListRecords动词页面的metadata部分和about部分,如图4所示。其中参数指定metadataPrefix=“oai-dc”,该条记录的标识符是oai:lib.dlutedu:jcdate/1278,创建时间是2005-11-01,元数据metadata部分包括多项教参书元数据信息对应的DC格式显示,包括书名、出版者、IsBN等,相关文献信息为courseID,即课程标识,关于部分声明该条元数据版权属于大连理工大学图书馆。
3.2.4 按标准协议开发的程序进行解析在对某些数据提供方采集的数据解析时,会抛出异常或报错,这往往是由于数据提供方返回的数据没有严格遵守协议规定的LSchematics2。