首页 > 范文大全 > 正文

Web资源质量元数据度量方法研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇Web资源质量元数据度量方法研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:该文针对web信息资源描述现状,将Web资源/信息质量评测模型WebQM理解为Web资源质量元数据模型。按照都柏林核心元数据集DC规范,使用DC元数据对网络资源进行描述,将质量元模型中质量评价准则映射为相对应的质量元数据,并讨论了如何使用质量元数据对质量准则进行度量

关键词:WebQM;质量元;数据度量;研究

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)34-9636-02

The Study of Web Information Quality Metadata Metrics

LIU Li1, ZHANG Ping2, CUI Hui-chao1

(1.Southwest Jiaotong University of Information Science and Technology, Chendu 610031,China; 2.Information Engineering University,Zhengzhou 450002,China)

Abstract: On analyzing the situation of Web information description, the article considered WebQM(web quality model) as the quality metadata model of Web information. According to the Dublin Core Element Set standard, the paper applied DC meta-data to describing Internet information resources, then mapped the criteria of WebQM to relative quality metadata and discuss how to use quality metadata to metric the evaluation criteria.

Key words: WebQM; dublin core; quality metadata; metric

随着互联网上的信息资源日益丰富,Web数据以多种形式存在,没有特定的模型描述,数据本身存在着自我描述性和动态可变性,因此必须使用元数据描述Web半结构化的数据结构。元数据即关于数据的数据[1],是描述任何Internet数据和资源,促进Internet信息资源的组织和发现的数据。与此同时,国内外学者关于Web信息资源质量评价的研究已经取得了一定的成果,提出了许多关于网络信息资源的评价准则,对网络资源质量进行评价,实现对网络资源的质量管理。将元数据应用于Web资源的质量管理中形成质量元数据,通过将质量评价准则映射为相应的质量元数据,能帮助研究人员更有效地理解和使用质量评价准则。同时,通过质量元数据度量评价准则,可以对Web资源有一个客观全面地评价,从而更好地识别和发现质量好的网络资源。本文将WebQM[2]理解为Web资源质量元数据模型,按照DC[3]规范,将元模型中各个评价准则映射为相应的质量元数据,并使用质量元数据度量质量准则。

1 Web资源/信息质量评测模型

ISO/IEC 9126是国际上现行的度量软件产品质量的标准。其中,ISO/9126-1将软件产品的质量定义为6种特性和27种子特性。Web信息资源可以看作特殊的软件产品,具有权威性、可访问性、可维护性等传统软件产品的共性。文献[2]在ISO/9126-1的基础上建立了一个Web资源/信息质量评测模型WebQM。WebQM定义了对Web数据质量的量化要求,可理解为是Web资源质量元数据模型。WebQM在Web信息源质量,Web信息质量和与应用相关的质量3个维和它们的12个子维上对Web资源/信息质量进行模型化和量化,从而建立了一个多维多层次评测空间,如图1所示。

2 Web资源质量元数据表达

在对Web资源质量元数据的研究中,Web资源质量元数据的发现和如何度量质量准则是研究的重点。在本文中,采用都柏林核心元数据集DC作为元数据表达的标准,举例说明参照DC规范怎样定义质量元数据以及如何使用质量元数据对元模型中质量准则进行度量。

2.1 都柏林核心元数据集DC

目前国际上存在多种元数据标准,但是不同的标准分别适用于不同类型的信息资源,其使用者和所针对的用户范围也有所不同[4]。通过对国际上比较有影响的几种元数据标准进行分析和比较,其中Dublin Core元数据是用于描述、支持、发现、管理和检索网络资源[5]的元数据标准,Dublin Core所适用的资料类型即是网络资源,它具有简练、易于理解、可扩展、能与其他元数据形式进行桥接等性能,能较好的解决网络资源的发现、管理和控制问题,是一个较好的网络资源描述元数据集,因此本文采用都柏林核心元数据集(Dublin Core Element Set,简称DC)作为Web资源元数据定义的标准。

根据最新的DC1.1版本,DC元素有15个元素构成,每个元素都根据ISO/IEC 11179定义十个属性。DC元素依据其所描述内容的类别和范围可分为三组:对资源内容的描述;对知识产权的描述;对外部属性的描述[6]。如表1所示。

2.2 用DC表示Web资源质量元数据

构建Web资源质量元数据仓库的难点在于质量元数据的定义。本文参考DC规范,结合Web资源质量元数据模型,定义模型中各个质量准则相对应的质量元数据。以元模型中表示Web信息内容的完整性准则为例来说明该过程。Web内容完整性是表达Web网站所提供的信息完整程度。由于Web内容的多样性和特异性,对其元数据元素的选择和定义也将不同,本文以购书类网站为例来说明如何用DC规范来定义Web资源质量元数据。对于购书类网站,可以将其元数据元素定为12项,其结构如表2所示。

在表2中,Web源属性元数据是对Web资源属性的说明,不反映Web内容的完整性,因此,将后面的8项元数据定义为Web内容完整性准则所对应的质量元数据。表中各元素的属性参考DC,每个元素7个属性,即:

名称(Name):元素名称。

标识(Identifier):元素唯一标识。

定义(Definition):对元素概念与内涵的说明。

选项(Obligation):说明元素是限定必须使用的还是可选择的。

最大使用频率(Maximum Occurrence):元素是否可重复使用。

数据类型(Datatype):元素值的数据类型,如整数类型、文本类型。

注释(Comment):对元素的一些补充说明。

2.3 Web资源质量元数据度量

使用Web资源质量元数据来度量质量准则是本文的难点之一。在此,以质量评价准则完整性的度量为例来说明如何使用质量元数据度量质量准则。文中,通过表2中8项质量元数据对该网页完整性进行度量。这里将完整性准则的值域设为[1,10]。

设该网页质量元数据总的个数为N,通过抽取得出网页所提供的质量元数据信息项个数为L, 则其完整性(Integrality)可通过公式(1)计算得出:

Integrality=(L/N)×10(1)

该文将该网站信息的完整性程度Integrality值参照里克特量表[7]作3级分类,当网页Integrality值在8~10之间,则网页完整性程度良好,Integrality值在6~8之间,网页完整性程度一般,若Integrality值小于6,则该网页信息完整性程度比较差。分类情况如表3所示。

3 结论

Web数据资源以大量异构、半结构、无结构的Web页面及文档组成,使用元数据描述Web资源,能对各类资源进行有效的描述、组织和管理。DC元数据为Web资源的数据结构化,为网络信息的检索和挖掘提供了便利,是一个良好的Web资源描述元数据集。参考DC规范,定义Web资源质量评价准则对应的质量元数据,并对质量准则进行度量,对Web信息源进行质量评价,从而遴选出高质量的Web资源[8],对Web信息资源进行有效的质量管理。本文还将继续研究针对质量元模型中其它准则所对应的质量元数据的发现和获取,使用质量元数据度量质量准则的方法也需要深入地探索与研究

参考文献:

[1] Jiawei Han. 数据挖掘概念与技术[M]. 范明,孟小峰, 译. 北京:机械工业出版社,2007.82-86.

[2] 朱焱,唐慧佳,马永强. 基于ISO/IEC 9126的Web资源质量评测系统[J]. 西南交通大学学报,2008,43(2):253-257.

[3] David Bodoff,Hung,P.C.K,Ben-Menachem,M.Web metadata standards:observations and prescriptions[J].IEEE Software,2005,22(1):78-85.

[4] 冯项云,肖珑,廖三三,庄纪林. 国外常用元数据标准比较研究大学图书馆学报[J].2001(4):15-21.

[5] 王桂玲.网络信息资源编目与DC元数据[J].现代情报,2005(4):55-56.

[6] 张崇.DC元数据在国内的应用及思考[J].现代图书情报技术,2004(11):6-9.

[7] 刘庆晓.大学生网络游戏行为影响因素及成瘾预防研究[D].农业信息研究所研究生院,2007:22-23.

[8] 朱焱.应用模糊分析层次法可靠评测Web资源质量[J]. 计算机科学,2009,36(4):221-223.