首页 > 范文大全 > 正文

采用Ontology和树的语义冲突消除法

开篇:润墨网以专业的文秘视角,为您筛选了一篇采用Ontology和树的语义冲突消除法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要 语义信息集成是目前屏蔽数据之间半结构性、异构性和分布性的主要方法,其目的是为用户提供最大范围的精确数据.本文以解决信息集成中的语义冲突为目的,采用ontology描述全局数据概念、树型结构描述局部数据概念.在此基础上,给出数据的逻辑定义方法,利用相似度计算匹配值来实现数据在语义集成中的匹配,并描述语义信息集成中的映射算法.最后,给出了实验数据和算法执行结果,验证了此方法的正确性.

关键词 结构化数据;语义集成;数据描述;映射算法

中图分类号 TP301 文献标识码 A 文章编号 10002537(2013)03001806

Semantic Conflict Resolution Method by Applying Ontology and Tree

LI Junzhou1*, RU Xiujuan2

(1. Arts and Crafts Department, Kaifeng University, Kaifeng 475004, China;

2. Department of Computer, Kaifeng University, Kaifeng 475004, China)

Abstract Semantic information integration aims to shield semistructured heterogeneous and distributed data, and to provide users with a wider range of precise data sharing. In order to solve the semantic conflict of information integration, Ontology is used to describe global data concept, and tree structure is employed to describe the concept of the local data. The logic definition method of the data is proposed and adopted. The similarity is used to calculate for data matching semantic integration in the match. And the homologous mapping algorithm of semantic information integration is defined. Experimental results verify the correctness of this method.

Key words structuredata; semantic integration; data description; mapping algorithm

________________________________________

信息集成是目前屏蔽数据之间半结构性、异构性和分布性的主要方法,其目的是最大限度地为用户提供统一门户,使其获取最大范围的精确数据[1].异构性(即冲突):是指信息集成中多个数据源中存在不相似的内容.本文针对不相似内容将其划分为如下3个层次[2]:

(1)平台异构性:各个异构数据库系统驻留在不同的硬件平台之上,使用不同的操作系统,用不同的通讯协议进行通讯.

(2)数据库系统异构性:可以是同为关系型数据库系统的Oracle,SQL server等,也可以是不同数据模型的数据库,如关系、层次、网络、面向对象、函数型数据库共同组成一个异构数据库系统.

(3)语义异构性:不同的成员数据库系统中相同或相关数据在含义、解释和用途方面不同.由于不同的局部数据库是独立设计和开发的,在参加集成的局部数据库之间可能会产生各种语义冲突,包括模式冲突和数据冲突.

每一个信息系统都有适合自身环境与工作效率的领域模型,因而系统间存在各种异构性.如何克服系统间的异构性,特别是语义异构,是信息集成主要要解决的问题[3].在信息集成过程中必须提供一种通用模型来解决语义异构问题,这个模型必须具备可移植性,与平台无关,能够有效解决信息之间的语义不同[4].本体是一种可以明确且形式化地规范说明各项内容、能够有效表达特定领域内的通用知识的通用语义模型[5].本文采用本体来描述全局数据概念,树型结构描述局部数据概念,利用相似度计算匹配值来实现结构化数据在语义集成中的匹配.

湖南师范大学自然科学学报 第36卷第3期

李俊州等:采用Ontology和树的语义冲突消除法1 本体(Ontology)简介

本体的概念来源于哲学和人工智能.哲学中的本体是指对存在的系统化说明;而人工智能中的本体更强调概念的可表示与可呈现.在计算机界, Gruber等人认为本体是概念模型中可明确形式化地规范说明各项内容,以便共享的通用语义模型.该定义涵盖了4层含义[810]:概念模型(conceptualization)、明确(explicit)、形式化(formal)和共享(share).本体的目标是获取特定领域的数据信息,提供对该领域的共同理解,确定该领域内共同使用的数据,从不同层面形式化给出这些数据(术语)和数据间相互关系的确切定义,通过数据之间的关系来描述概念的语义.

同样,本体作为知识表示工具, 与语义网络非常相似,也正成为知识处理的技术平台,被称为下一代的语义Web.就语义Web本身而言,它是目前Web应用的扩展,它能够描述一定的语义,使计算机及人类能更好地协调合作.本体是语义web中知识推理的基础,需要实现机器间的可理解.同时,基于本体的OWL使得Web服务具备机器可理解性和易用性,从而让人性化的智能主体支持自动的、动态的Web服务发现、执行、组合和互操作.

2 数据异构分析及表示方法

2.1 结构化数据存在的异构分析

同一领域信息资源系统之间存在着语义上的异构.这些语义上的异构能引起各种矛盾.经过多组数据的分析,确定造成异构的原因主要有如下3个因素[11]:

(1)不同的信息资源使用不同的术语或者词汇表示同一概念;

(2)同一词汇或者术语在不同的信息资源中表示不同的含义;

(3)各信息资源使用不同的数据结构来表示相同或者相似的数据组成;

各信息资源中概念之间存在着千丝万缕的联系,但因为各信息源分布在不同区域,不同平台,这种隐含的联系不能具体表现出来.针对多组数据源的分析,所面临的语义冲突主要有:(1)值值冲突:相同的数据表示的值不同.如同一数字分别用km和cm做单位,它就表示不同的长度;(2)属性属性冲突:不同数据源对相同实体的属性采用不同的组织结构,例如出生年月在一个数据库中是“年+月+日”,而在另外一个数据库中则采用年月日分开定义的方式;(3)表表冲突:相同的概念在不同的数据库有不同的表现模型;(4)值属性冲突:在不同数据源或者相同数据源中,某一表中被表示为属性名,而在另外一张表中被表示为属性值;(5)值表冲突:在不同数据源或者相同数据源中,某一数据库中表示为表中某属性的值,而另外一个表示为表名;(6)属性表冲突:在不同数据源或者相同数据源中,某一数据库中的属性名称被表示成另一数据库的表名.

2.2 结构化数据表示方法

在结构化数据表示中,首先建立领域本体,即给出某一特定领域中的元数据的全局性质的概念和定义.例如由OCLC首倡的都伯林核心(Dublin Core)元数据[12],包括提名Title、创建者Creator、日期Date、主题Subject、出版者Publisher、权限Rights、关联Relation、覆盖范围Coverage等15个元素的元数据集合,用于描述资源对象的语义信息,目前已成为IETF RFC2413、ISO15836、CEN/CWA13874、Z39.85国际标准和澳大利亚、丹麦、芬兰、英国等国家标准.

其次,建立局部数据结构的表示.通过对局部数据源的分析,采用树型结构表示结构化数据的层次关系;利用关联矩阵存储,能有效提高系统的访问效率.并给出树中每个节点存储表示.例如在某个SQL Server数据源中,以数据源为顶点,采用自上而下的层次关系建立树结构[13].具体如图1所示.

图1 局部数据库树形结构表示

Fig.1 Tree structure of local database在语义异构中,主要解决取值范围、属性类型、属性和表的冲突.针对树型结构,采用邻接矩阵表示节点和节点之间存在的联系,利用节点的长度表示节点所处的层次,进而利用与领域本体的元数据的匹配,解决数据间的冲突和异构.

3 本文语义信息集成方法

3.1 语义数据集成总体框架

语义数据集成是将各局部数据源中的数据分析、整理组合后将最终的数据返回给用户,使得用户不需要关心所有局部数据源的信息.语义信息集成在获得数据访问的结果时,根据领域本体处理文件中存在的异构定义如同名异义、异名同义等术语,处理掉这些异构,同时对于返回的数据进行冗余处理和排序,并将处理后的结果封装到虚拟体中,对外提供统一的API.如在M数据源中利用“男/女”表示性别,而在N数据源中,利用“0/1”表示性别,此时就要处理掉这些数据之间的不同,提供给用户完整精确的数据结果.

图2 语义数据集成框架

Fig.2 Semantic data integration framework图2给出了语义数据集成的框架.其中任务生成是用户的门户,用户通过该部分提交自己需要完成的任务.任务处理包括任务分解、访问控制和数据访问3部分,是根据领域本体与映射服务将用户提交的任务转换为各个局部数据源相关的形式,并按照匹配标准,数据访问权限等进行数据的强制处理和转换.局部服务采用图1的树型结构描述数据源的相关信息,将局部数据源利用Web服务技术,封装该数据源的访问接口.

3.2 匹配映射方法

3.2.1 数据源形式化描述 为了能给出领域本体和局部数据源一个通用的形式化描述,首先要对本体进行形式化.在本文中,本体的形式化定义采用四元表示方法,具体见定义1.

定义1 本体的形式化表示:本体O=(C,S,R,δ),其中O表示本体;C表示本体中的概念集合;S表示本体的组织结构,如用isa表示具有传递性和非对称性的层次结构;R表示概念间的相互关系,RC*C;δ表示关系和概念间的匹配函数的集合,δ:RC.

语义数据集成中领域本体的形式化描述采用类似本体的表示方法.

假设某个特定领域G由n个具体的局部数据源所构成,则需建立局部数据源和领域本体之间的映射关系,并描述局部数据源的形式化表示,见定义2.

定义2 数据源的形式化表示:G=(D1,D2,…,Dn),其中Di表示某一特定局部数据源的集合.

根据图1给出Di的形式化表示:Di=(U,T,V,F),其中U表示用户集合,T表示局部数据源表集合,V表述局部数据源视图集合,F表示局部数据源关系集合.详细定义为:

T=(T1,T2,…,Tn),其中Ti=(p1,p2,…,pn);

V=(V1,V2,…,Vn),其中Vi=(T1,T2,…,Tn),TiT,

F=(F1,F2,…,Fn),Fi=(Tn,Tm),其中Tn,TmT pnTn,pmTm,pn,pm分别表示Tn,Tm表中的属性.

领域G中的概念一部分来源于领域专家的抽取,另一部分来源于局部数据源T集合.例如某具体数据源中具有代表性的数据经专家判定和计算后可归纳到领域本体G的概念集合C中.

另外,在语义数据集成中,数据与数据之间的关系表示了数据所处的层次和数据要匹配的模型,所以关系的形式化表示非常重要,下面给出领域本体中组织结构R的部分关系标示内容:

1) Combined――表示概念和概念之间是组合关系;

2) SameAs――表示类和类相等,例如不同的表名称定义了同一组数据;

3) Equal――表示不同表之间的属性和属性相等;

4) IsPartof――表示部分与整体之间的关系;

5) Attriof――表示某个对象是另一个对象的属性;

6) Connect――表示2个对象之间通过同一变量具有关联的关系;

7) beFormed――表示多个同一对象可以组合成另一对象的关系;

8) Subclass――表示父类和子类之间的关系.

3.2.2 概念匹配方法及算法描述 在匹配过程中,根据概念的组织结构,采用语义匹配的方法计算概念之间的相似度以及概念的属性、取值比较,完成概念之间的匹配.例如在数据源存储的相邻矩阵中,根据领域本体和局部数据源所存储概念在组织结构中的权值进行匹配:权值不同表示所处的层次不同,则不进行匹配;权值相同,则根据其子类的属性、取值范围计算概念相似度(即采用了相似对象其拥有的属性和取值范围也基本相似的原理)进行匹配.

概念匹配算法及流程图见图5,6.

ConcepMatching (string concept 1, string concept 2)

{

计算concept 1的权值;

计算concept 2的权值;

If (concept 1.权值!=concept 2.权值)

Then 输出(“匹配值为0”)

Else

{

//计算concept 1与concept 2的匹配值

获取concept 1的属性,并储存于数组1中;

获取concept 2的属性,并储存于数组2中;

For (i=0;i〈数组1的长度;i+ +)

{

数组1.[i];

for (j=0;j〈数组2的长度;j+ +)

{

数组2.[j]

ConceptMatching (数组1.[i],数组2.[j])

计算属性的相似度,并存储.

}

}

计算属性相似度的平均值

若平均值超过85%,则定义为概念相似;

若平均值不超过85%,则定义为概念不匹配;

}

}

图3 概念匹配算法描述

Fig.3 Description of concept matching algorithm

图4 相应概念匹配算法流程图

Fig.4 Corresponding flow chart of concept matching algorithm 算法说明如下:

1)概念的权值表示概念在属性结构中所处的层次,即相邻矩阵中对应的数值.

2)概念的属性:若此概念已经是叶子结点,则直接计算其相似度;若概念有叶子结点,则逐一访问存储其叶子结点,利用其所表示的语义以及对应值的存储情况确定其相似性.在本体文件中,采用了SameAs表示概念相等;采用Attriof表示某个对象是另一个对象的属性;采用Subclass表示父类和子类之间的关系.例如在概念匹配中,若匹配成果,则将其存储到本体文件中,并利用SameAs表示.

3)计算属性相似度的平均值.对于每个都找到相似概念的属性值,计算所有属性值的平均值.若属性匹配成功,则利用Equal表示属性相等,并将其存储到对应的本体文件中.若存在属性的组合情况,则利用beFormed表示.

4 实例验证

在此实例验证过程中,本文采用了客户关系管理系统(CRM)中的知识管理部分作为实验数据(限于篇幅,本文仅给出部分数据).利用KM_CRM作为全局本体的概念源,以此分别引出全局概念和属性的全局树(图5),利用KMx_CRM、KMy_CRM作为局部本体的概念源,以此引出局部概念和属性的局部树(图6,7).

图5 全局概念和属性的全局树 图6 局部树x 图7 局部树y

Fig.5 Global tree of global concept and attribute Fig.6 Local tree x Fig.7 Local tree y通过算法的运行基本找到了相似数据,并能对用户通过唯一接口搜索的数据提供多系统的服务,保证了数据访问的完整性.图8是算法运行结束后建立的映射文档.

图8 算法执行后的映射文档

Fig.8 Mapping documents after the algorithm implementation另外,对此算法进行空间复杂度和时间复杂度分析,其算法的复杂性和效率要优于目前被广泛使用的弹性匹配算法.

5 结束语

本文针对现有异构数据库集成中存在的问题,如结构异构,语义异构等,给出了消除这些异构的统一描述方式和数据定义及其算法描述,解决了数据库表、属性中存在的同名意义和异名同义的问题.但是,由于本文的大部分内容是基于文档文件的查询,查询速度较低,这将是今后需要进一步完善的研究工作.

参考文献:

[1] CASTRO J L, DELGADO M, MEDINA J. Intelligent surveillance system with integration of heterogeneous information for intrusion detection [J]. Exp Sys Appl, 2011,38(9):1118211192.

[2] 万年红. 面向服务的自适应云资源信息集成软件架构[J].计算机应用, 2012,32(1):170174.

[3] LUO Z H, WU J T. The integration of directional information and local region information for accurate image segmentation[J]. Pat Recong Lett, 2011,32(15):19901997.

[4] DAVID G, IGOR A. Accuracy and performance of the statebased Φ and liveliness measures of information integration[J]. Cons Cogn, 2011,20(4):14031424.

[5] ZHOU L N, AMMAR S M, ZHANG D S. Mobile persona informationl management agent: supporting natural language interface and application integration[J]. Inform Proc Manage, 2012,48(1):2331.

[6] SHI L, ROSSITZA S. Useroriented ontologybased clustering of stored memories[J]. Expert Sys Appl, 2012,39(10):97309742.

[7] 岳 洋,曾广平. 一种面向构件的行为语义模型及其应用研究[J].计算机应用研究, 2012,29(5):17511755.

[8] CARMEN M, ALBERT V D H, DANIEL S. An approximation to the computational theory of perceptions using ontologies[J]. Expert Sys Appl, 2012,39(10):94949503.

[9] 陈叶旺,钟必能,王 靖. 一种基于本体与描述文本的网络图像语义标注方法[J]. 计算机科学, 2012,39(06):293299.

[10] 王志华,魏斌,李占波. 基于本体的Web信息抽取系统[J]. 计算机工程与设计, 2012,33(7):26342639.

[11] JEF P, PETER V P. Measuring integration of information and communication technology in education: An item response modeling approach[J]. Comput Edu, 2012,58(4):12471259.

[12] HSIEH S H, LIN H T, CHI N W, et al. Enabling the development of base domain ontology through extraction of knowledge from engineering domain handbooks[J]. Adv Engin Inform, 2011,25(2):288296.

[13] 孙全红,张贞贞. 基于树结构的 Web 表格信息抽取方法[J]. 华北水利水电学院学报, 2011,32(3):108110.