首页 > 范文大全 > 正文

基于SQL Server的本体储存研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于SQL Server的本体储存研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:本体合理有效的存储是保证本体共享利用的前提,现有的关系数据库本体存储模式在存储本体后会出现查询推理效率低、维护困难等问题。文中在分析现有模式的基础上,针对本体类和属性的特点,给出了本体存储模式的设计原则,并基于该原则提出了一种新的本体存储模式。该模式针对本体描述语言的特点,将本体查询常用的信息存放在不同的表中。整个模式易于理解,结构稳定,并且减少了本体查询时进行表连接的代价,提高了查询效率。

关键词:本体;关系数据库;存储模式

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)19-30017-02

Ontology Storage Schema Based on sql server

ZHOU Xuan-ji

(Zhejiang Shuren University, Hangzhou 310018, China)

Abstract: The rational storage of ontology is the premise of the shareable use of ontology.Under current ontology storage schema, some problems such as difficult maintenance, low query and inference speed may appear after ontology storing in relational databas. Firstly current ontology storage methods are analyzed. Secondly ontology storage schema is designed according to ontology characteristic. The principle of designing ontology storage schema is given and a new storage schema is proposed based on the principle. In this schema, according to the characteristics of ontology description language, frequently queried information is stored in multiple tables, which makes the schema understandable and stable. Furthermore the schema can increase the query efficiency by reducing the cost of table join.

Key words: ontolog;relational databas;storage schem

1 引言

随着 Internet 应用的普及和快速发展,组织和个人之间,软件系统之间的交流与协作越来越重要。面对信息的海洋,如何组织、管理和维护海量信息,并为用户提供有效的服务也就成为一项重要而迫切的研究课题。为了适应这些要求,本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已在信息系统的许多领域得到广泛的应用。那些早期的语言标准和工具无法满足广泛存在的Web应用,所以研究者们开始重新研究Web环境下的本体。尤其是语义Web环境下的本体。随着语义网络中本体中资源的增加,本体的规模越来越大,结构越来越复杂,此时,本体的存储管理效率成为人们普遍关注的问题。如何在本体存储管理系统中设计高效的本体存储模式,合理的存储大规模的本体,支持高效的本体存储管理是一件很有意义且具有挑战的任务,而本体的合理有效的存储是保证本体共享利用的前提。

2 研究背景的介绍

2.1 本体存储研究的背景及意义

随着语义网络中本体资源的增加,本体的规模越来越大,结构越来越复杂,此时,本体的存储管理效率成为人们普遍关注的问题。如何在本体存储管理系统中设计高效的本体存储模式,合理的存储大规模的本体,支持高效的本体存储管理是一件很有意义且具有挑战的任务,而本体的合理有效的存储是保证本体共享利用的前提。所以如何有效存储大规模本体的数据和关系仍然是本体存储面临的一个重要问题。而现有的本体存储模式不能满足大规模本体的存储。所以对于本体存储模式的研究还是很有必要的。

2.2 本体及其存储方法的介绍

2.2.1 本体的概念

本体的概念最初起源于哲学领域,它在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。后来在信息系统、知识系统等领域,越来越多的人研究本体,并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”。后来,Brost对此稍作修饰,提出:“本体是共享概念模型的形式化规范说明”。本体的概念包括四个方面的内容:

1) 概念化(conceptualization):抽象出客观世界的现象一些相关概念而得到的概念模型,即概念系统所蕴含的语义结构,是对某一事实结构非正式的约束规则,可以理解和/或表达为一组概念(如实体、属性、过程)、定义和关系;

2) 明确(explicit):所使用的概念及这些概念的约束都有明确的定义;

3) 形式化(formal):计算机可读的;

4) 共享(share):本体中反映的知识是其使用者共同认可的。

人们认为本体是某个领域内(可以是特定领域的,也可以是更广的范围)不同主体(人、、机器等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系,作为使用者之间达成的共识。因此,本体的用途包括交流、共享、互操作、重用等等。

2.2 本体的描述语言

从本体整体设计的要求来看,本体的构建应是在抽象客观现象相关概念的基础上形成的概念模型(Concep-tualization),并以其包含的知识和概念集的共同性达到各方的认可而共享(Share);它的概念类型、约束条件及使用都应有显式的描述,并能由机器自动化处理而体现其明确(Explicit)的形式化(Formal)。工程实践中,领域本体的设计和开发往往要依赖于具体的描述语言和工具软件的支撑。对于语义Web而言,本体的表示应该是以Web数据表示和交换的标准化语言为基础。

3 本体的存储介绍

语义网络的应用需求促进本体数据管理工作的发展,目前已经出现了若干本体存储管理系统,按照存储介质不同可以分为基于主存、基于文件系统和基于关系数据库三类本体存方法。

3.1 基于主存的存储方法

这一类的本体数据管理工作的特点是将本体数据全部导入内存,按照某种结构进行组织;在内存结构上执行数据的查询操作。这种方法具有较高的运行效率,但是只能处理有限规模的数据。由于是内存数据管理,不存在磁盘更新的问题。OWLim,OWLJessKB和文献是典型的基于主存的本体存储管理系统。

3.2 基于文件系统的存储方法

基于文件系统的存储:该方式实现起来比较简单,很多本体相关工具都支持对文件格式的本体进行存取。但是,这种方法不仅效率低,而且很难适应数据量较大的情况。基于文件系统的存储方式一般只适用于规模比较小的本体,对于规模比较大的本体需要大量的内存管理工作,而对于直接以XML格式这样子一种树形结构组织的文件来表示的RDF数据,当件很大时,要把握RDF模型数据全局的结构,必须通过对文件进行反复的扫描,大量的数据换进换出工作,对系统的效率是一个很大的考验。而且为了保证系统的并发性,必须要建立相关的并发控制和事务管理系统。早期的一些本体数据管理工作是基于文件系统实现的,它们用简单的文件格式存储本体数据并支持一些基本的操作。这类工作主要用来编辑和建立体,并不是为大规模本体数据的存储和查询管理服务的,例如OntoEdit,Protégé。

3.3 基于关系数据库的存储方法

该方式是将本体按照一定的策略组织在数据库中,利用现有的数据库系统对数据的操纵和管理能力来存取本体。由于关系数据库技术发展成熟,大多数现有的本体数据管理工作使用关系或对象-关系数据库管理系统作为后台存储,代表系统包括Sesame,Rstar,Jena,3store,Minerva等等。基于关系数据库存储本体可能有多种模式设计,现有的包括早期的水平式、垂直式、分解式、混合式和后来广泛为本体存储管理系统采用的Sesame for RDB存储模式及Sesame for ORDB存储模式。

4 基于关系型数据库的存储设计

OWL是W3C最新的推荐标准。与早期的语言相比,OWL具有更强的描述能力,支持更多的推理。本节重点讨论基于关系数据库的OWL本体的存储模式设计。与RDF相比,OWL引入了更多的本体描述词汇,例如Class,property,individu-al,subClassOf,subPropertyOf,different From equivalentClass,e-quivalentProperty,sameIndividualAs等。这表明,在OWL本体中对这些信息的查询需求比较多。所以,可以将这些常用的本体查询信息抽取出来,单独存放。这样不仅使表结构清晰,而且可以减少查询时进行表连接的代价,提高效率。

OWL使用URI来唯一的标识本体中的资源,而URI是由namespace和localname组成的,所以,这些信息应该组织到一张资源表中。又因为OWL本体中的资源严格区分为类(class)、属性(property)和实例(individu-al),所以该表使用字段type记录资源的类型(类、属性和实例)。

OWL使用subClassOf,subPropertyOf,e-quivalentClass和equivalentProperty来描述类(或属性)之间的基本关系(层次关系和等价关系)。在OWL本体中经常需要查询这些关系,所以本文将这些信息分别组织在单独的表中,从而提高对相应关系查询的效率。

5 存储模式的比较

在现有的存储模式中,除垂直模式外,其他存储模式的表结构都不稳定,在实际应用中具有很大的局限性。所以,本文只比较本文的存储模式和垂直模式。本文以一个本体中包含的URI的个数作为衡量本体大小的标准,将这个本体处理成5个不同规模的本体,它们分别包含10×104,30×104,50×104,70×104和90×104个URI。本文将测试3种类型的查询:查询1,查找某个类的直接父类;查询2,查找某个类的所有子类。

将不同规模的本体分别按照本文的存储模式和垂直模式进行存储,然后在这些数据库上分别作上述五种查询。对每种查询都进行30次不同的具体查询,得到平均查询时间作为该类查询的时间。在测试查询时间时,本文直接使用SQL语句来实现,而不使用某种本体查询语言,目的是为了消除将该查询语言翻译成相应的SQL语句所需时间对实验结果的影响。

6 总结

理想的本体存储模式除了具有尽量高的规范化程度,还应该满足如下原则:易于理解、结构稳定、查询效率高。基于SQL Server的本体储存正是顺应了本体存储的发展潮流。

参考文献:

[1] 谢储晖, 郭达志. 本体的研究现状及其应用[J]. 福建电脑,2003,(12):26-28.

[2] 李曼, 王琰, 赵益宇, 杜小勇, 王珊. 基于关系数据库的大规模本体存储模式的研究[J]. 华中科技大学学报(自然科学版),2005,33(01):217-220.

[3] 张蕾. 语义Web本体语言及owl研究[J]. 成都信息工程学院学报,2007,22(2):161-165.

[4] 许文华, 王英林, 申生. 基于本体的重构实例存储技术[J]. 计算机工程,2006,30(24):125-127.