首页 > 范文大全 > 正文

电子文件管理元数据标准化研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇电子文件管理元数据标准化研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

1. 电子文件管理元数据的基本概念

1.1元数据的基本概念

元数据英文为“Metadata”,从构词法上看,“meta”来自于希腊语,其词义为“在……旁边、与……在一起、在……之后、与……连接”等。在近现代拉丁语和英语中,“meta”表示有“超越”的含义,而“Data”就是用于推理、讨论和计算的事实信息,可以是数字、字词、句子和一条条记录。所以,元数据通常也就根据其字面解释,定义为“关于数据的数据”。

在此基础上,又衍生出许多有关元数据的定义,不下几十个。但是,对元数据最为权威的定义有两个:

(1)一个是国际标准组织制定的国际标准《ISO/IEC11179-1信息技术――元数据注册――第一部分:数据元素的说明及标准化框架》中所定义的:“元数据是定义和描述其他数据或过程的数据”。它是在“元数据是关于数据的数据”基础上,首先将“关于”具体化为“定义和描述”,其次将被关于的“数据”扩大为“数据或过程”,实际上这种扩大可以看做是“扩大的具体化”。

(2)一个是国际著名的元数据标准化机构――都柏林元数据机构制定的《都柏林核心元数据应用》中所定义的:“元数据是关于数据的结构化数据”,它是在“元数据是关于数据的数据”基础上,将元数据限定为“结构化数据”,从而提示了“元数据”与所关于的原生“数据”的区别。

根据形式逻辑概念的定义结构看,任何概念都是由“属加种差”构成,所以,“元数据”最为一般的“关于数据的数据”定义结构,也可以由这两部分构成。而其后衍生出来的元数据的概念都是在“种差”和“属概念”这两个部分上的具体化,见图1。

从图1可以看出,国际标准《ISO/IEC11179-1信息技术――元数据注册――第一部分:数据元素的说明及标准化框架》关于元数据的定义是在“种差”上进行了具体化,而都柏林元数据机构的定义则是在属概念上进行了具体化。由此我们可以看出一个趋势,元数据定义的衍生基本上都是在具体化上衍生,由此形成了适用于各个专业领域的具体的元数据概念。

当然,也有相对于具体化的“泛化”的元数据定义,如在2004年美国国家信息标准化组织出版的《理解元数据》中所定义的:“元数据是关于信息的信息”,其中“信息”就是对“数据”的泛化,但元数据这种定义在元数据领域中不占主导地位。

现在有关元数据的新的定义基本上都离不开“具体化”与“泛化”这两种形式,但不管元数据定义是具体化衍生,还是泛化衍生,其核心的性质都是不变的,这核心的性质就是元数据的“控制”性质。我们以元数据最一般的定义“关于数据的数据”为例,元数据的这种“控制”性质可以如图2所示。

从图2可以看出,首先,作为“数据2”,即元数据是对“被关于的原数据”,即“数据1”的超越,而不是“数据1”原样的拷贝与复制,这种超越直接表现为,元数据是一种结构化的数据,而相对于元数据而言的,“被关于的原数据”是一种非结构化数据,所以元数据是在有序度方面对“数据1”的超越,是一种有序度化的处理;其次,元数据的有序总是反映着“数据1”这种“被关于的原数据”的语义、结构或过程的有序,也就是说元数据的内容具有很强的“指向性”,这种指向性,总是针对着“数据1”的。由此,从以上分析,我们可以看出:

(1)元数据是一种结构上有序的数据;

(2)元数据是一种内容上有序的数据。

以此为基础,我们可以发现元数据本质上是一种对原数据进行处理的有序化数据,从系统论角度看有序化即意味着“控制”。所以,元数据控制性质的示意又可以如图3所示。

由于元数据对“数据1”具有控制作用,这就构成了元数据对“数据1”具有控制的机理,所以,美国国家标准化组织2004年出版的《理解元数据》一书的开篇醒目的大字,首先就指出了元数据的控制作用:“元数据是确保数据资源长久保存下去并在未来可继续利用的关键。”

1.2 电子文件管理元数据控制的机理

关于电子文件管理元数据的定义,在电子文件管理领域中现在已基本统一为2001年颁布的国际标准《ISO15489-1信息与文献――文件管理》中所定义的概念,即在文件管理领域,元数据是指“自始至终地描述文件的背景、内容、结构及其管理的数据”。该元数据概念在2003年颁布的国际标准《ISO23081-1信息与文件――文件管理过程――文件元数据》中也得到了确认,而且在2005年国际档案理事会颁布的《电子文件管理业务手册》中又再一次地得到了确认。

显然,这一电子文件管理元数据的概念是元数据一般概念在电子文件管理领域中的具体化,这种具体化表现在这样几个方面:

(1)对象的具体化,即由一般元数据概念中的“数据”对象具体化为“文件”和“管理”;

(2)方式的具体化,即由一般元数据概念中的“关于”方式具体化为“描述”方式;

(3)时间的具体化,即由一般元数据概念中无时间定义,具体化为“自始至终”的时间;

(4)内容空间的具体化,即由一般元数据概念中“对象内容”具体化为“对象的背景、内容、结构和管理”。

电子文件管理元数据概念的这种具体化,反映了元数据在各领域中应用的一般规律,同样,电子文件管理元数据的这种具体化也并没有改变元数据的“控制”机理,相反,由于通过其具体化,这种“控制”的机理反而得到了进一步的增强,如图4所示。

从图4可以看出,电子文件管理元数据控制着电子文件的“背景、内容、结构、管理”,也就是通过这种控制,元数据可以保证着电子文件所具有的最本质的特性:

(1)真实性,即具有背景、结构和内容的文件其原始特征自始至终地保持一致,文件就是文件的本身。

(2)可靠性:即文件作为可靠凭证的性质,文件作为证据的权威性和可信赖性。

(3)完整性:即文件是完全的,并且未经作任何改变。

(4)可使用性:即定位、检索、显示和说明文件的性质。

而电子文件只有具备了以上这些本质特征后,才能被称之为真正意义上的具有档案凭证价值的电子文件,否则,就不能算是电子文件,而只是“电子文献(Electronic Document)”。由此可知,电子文件管理元数据的“控制”机理,是使电子文件免于失去“真实性、可靠性、完整性和可使用性”的保证,也就是防范威胁这些本质特征的风险产生的关键措施。

2. 电子文件管理元数据的功能与结构

正是由于电子文件管理元数据的控制机理,电子文件管理元数据才具有了控制功能,其控制功能具体来说体现在以下十个方面:

(1)自始至终地保护作为凭证的文件,确保其可利用性和可使用性;

(2)便于对文件的理解;

(3)支持与确保文件的凭证价值;

(4)确保文件的真实性、可靠性和完整性;

(5)对文件的利用、文件的内容及文件利用的权限提供支持和管理;

(6)支持高效率的检索;

(7)在创建和管理电子文件的不同的技术和业务环境中,支持文件的捕获,从而支持互操作策略的实施,以及文件的长期可利用性;

(8)以结构化的、可靠的和有意义的方式提供文件与其创建、管理背景信息的逻辑关联;

(9)为识别和形成数字文件的技术环境提供支持,同时对维护文件的现行技术环境的管理提供支持,以便可以利用文件;

(10)为高效、成功地实现电子文件从一种计算机平台到另一种计算机平台的迁移提供支持。

上述十个方面的电子文件的具体功能可概括成四大宏观功能,即电子文件元数据在控制电子文件的背景,内容,结构,管理中所起到的:

(1)描述功能;

(2)发现功能;

(3)管理功能;

(4)长期保存功能。

这两种功能的对应关系具体示意如图5所示。

从图5可见,电子文件管理元数据的功能主要集中在管理功能这一块。对应于元数据上述这四种功能,电子文件管理元数据的构成也就可以划分成四种类型的元数据构成,即电子文件管理元数据结构中包括:描述类元数据,发现类元数据,管理类元数据,长期保存类元数据。

(1)描述类元数据:包括对电子文件本身和对电子文件背景信息进行描述的元数据,对电子文件本身进行描述的元数据,主要是针对电子文件的内容特征进行描述,如文件的题名,责任者等;对电子文件背景信息进行描述的元数据包括电子文件的业务处理规则,政策法规环境,相关机构等信息,例如文件的法律体系,行政管理沿革等元数据;

(2)发现类元数据:主要是指电子文件的发现,即检索功能类元数据。例如电子文件的检索词,主题词等元数据;

(3)管理类元数据:主要是对电子文件进行管理过程形成的元数据。例如电子文件的签发,承办,传阅,鉴定,销毁,审查等元数据;

(4)长期保存类元数据:主要是指支持电子文件的长期保存类元数据。例如电子文件的迁移软件,硬件环境等元数据。

当然,电子文件管理元数据的构成还可以从其他角度加以划分,如在国际电子文件管理领域除了上述按照功能划分元数据构成外,还有从电子文件生命周期理论角度进行划分的,如分为现行电子文件管理元数据和电子档案管理元数据;从文件连续体理论角度进行划分的,如分为登录、分类元数据,内容、结构、背景信息元数据,文件管理流程元数据,等等。但无论从何种角度进行划分,电子文件管理元数据构成所要达到的功能――控制功能,这一目标都是共同的,即要控制电子文件的内容、背景、结构和管理,从而确保电子文件的真实性,完整性,可靠性和可使用性。

3.电子文件管理元数据标准化研究

电子文件管理元数据是一种内容和结构上有序的元数据,这种有序集中体现在电子文件管理元数据标准中。因而在制定电子文件管理元数据标准时,要注意宏观上的标准化,同时也要注意每一个电子文件管理元数据语义内容和语法结构的标准化,即微观的标准化。

从宏观上来说,电子文件管理元数据标准要达到标准化,应当保持三个一致:“与国际通用标准相一致”,“与现有国家标准相一致”和“与专业领域标准相一致”。因为国际的、国家的以及专业领域内已有的元数据标准大都已得到了广泛应用,积累了大量的元数据资源,因而为避免重复建设资源,保证格式一致进行互操作,保障信息组织的一致性,在设计元数据标准时应当遵循宏观上一致性的原则。

从微观来说,每一个电子文件管理元数据的语义结构和语法结构的描述要达到标准化,即:电子文件管理元数据标准化=语义结构标准化+语法结构标准化

元数据语义结构的标准化是对元数据元素语义具体描述方法的规定,例如对元数据的每一个元素名称、标识、定义等的描述规定。元数据语义结构的标准化主要是对描述元数据置标的语法作出规定。在元数据领域中,对元数据语义结构和语法结构进行标准化的这一做法,在国际上被称之为最佳实践而被广泛采纳,其优点如下。

(1)通过语义结构的标准化可以统一对元数据的理解,保证对元数据表达的一致性,防止歧义;

(2)通过语法结构的标准化可以统一对元数据的使用,保证对元数据置标的一致性,防止误操作。

一般而言,对电子文件管理元数据语义结构和语法结构的标准化,是由“语义结构标准”和“语法结构标准”构成。前者如:元数据元素名称、元数据元素标识、元数据元素定义、元数据元素必备性、元数据元素的可重复性、元数据元素属性、元数据元素子元素、元数据元素数据类型、元数据元素注释;后者如:元数据元素的语法。

元数据的语义结构,是由各个属性所构成的,如“题名”元素,其语义的构成,就是由“名称,标识、定义、用途、可重性、子元素、数据类型、注释”等这些属性所构成,而其语法结构却是由“HTML、XML、TXT”等这三种置标语言所构成。通过制定电子文件管理元数据标准来控制元数据的语义结构和语法结构,进而控制电子文件管理原数据,确保电子文件凭证性,这就是电子文件管理元数据的标准化的核心,其控制链示意如图6所示

目前国际上知名的电子文件管理元数据标准主要有:澳大利亚联邦电子文件管理元数据标准,澳大利亚维多利亚州电子文件管理元数据标准,英国电子文件管理元数据标准等,这些电子文件管理元数据标准都是值得我们研究和借鉴的。

(作者单位:南京政治学院上海分院军事信息管理系 200433)