首页 > 范文大全 > 正文

基于知识地图的多领域本体映射研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于知识地图的多领域本体映射研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要]探讨引入知识地图来解决多领域本体映射问题的基本思路,给出从领域本体到知识地图的映射框架,并在此基础上,利用可视化工具Personal Brain实现卓越网的跨领域多本体的映射。

[关键词]语义互联 本体映射 知识地图

[分类号]G250.73

1 引言

随着本体在知识组织和知识管理中的重要性被众多领域所关注,本体工程的相关研究已经成为语义网研究的关键与核心。国内外研究者在本体构建(ontology con-struction)领域已经积累了较为丰富的研究成果,一批以本体构建、编辑和推理为目的的本体工具应运而生。但是,随着本体工程相关研究的日渐深入以及基于不同目的和项目的中小规模本体的纷纷涌现,如何整合利用现有本体,实现不同本体间的互操作,以及基于不同本体的知识共享和复用等问题,在本体工程相关研究中越来越引起关注和受到重视。本文基于利用知识地图解决多领域本体语义互联的研究思路,提出从领域本体到知识地图的映射框架,并利用Personal Brain可视化工具,探讨如何实现基于知识地图的异构领域信息资源的语义互联。

2 引入知识地图解决语义互联中多领域本体问题的基本思路

2.1语义互联中的多领域本体问题

利用领域本体组织领域资源的基本思路,即在资源集合的上层构建一个反映领域资源知识结构的领域本体概念模型,以此为基础对资源进行基于语义的标注,语义标注是实现语义互联的基础。领域资源在语义层面互联的目的是将各领域信息资源整合到一个统一的语义资源空间,以解决其固有的异构性、多领域性和语义差异性。通过对七步法、METHONTOLOGY方法、IDEF5方法、企业建模法、骨架法、循环获取法、KACTUS方法等国际上经典的本体构建方法的梳理,以及对国内基于描述逻辑的本体构建模型、基于需求分析的本体模型构建方法、构建领域本体的知识工程方法等本体构建方法的考察,可以发现,目前语义互联中的多领域本体问题主要是:

・本体构建的方法和表示方法不一致。一个本体构建工程需要许多的领域专家和知识工程师参与,每个专家使用的建模方法不同,那么构建出来的领域本体也必然不同,即使是面对同一领域内的问题建模,也会出现许多不同的本体,这些本体之间是异构的,无法进行互操作,用户之间也无法互相理解。

・单一的领域本体难以描述和表达知识的多领域特性,必须涉及多个领域本体。在语义互联的过程中,首先需要对领域资源进行语义标注,而每个独立的领域资源一般都包含多领域的语义,需要同时使用多个领域本体对领域资源进行标注,多个领域本体的标注结果必然形成多个异构的领域知识库。为了在语义层面整合这些异构的知识库,就需要建立本体之间的语义关联。

有鉴于此。目前已有一些研究者专门从基于知识地图语义互联的角度,对上述多领域本体中存在的问题展开了系列研究。

2.2解决多领域本体语义互联的途径――本体映射

目前,本体映射被认为是解决多领域本体语义互联的有效途径。本体映射是指两个本体存在着语义级的概念关联,通过它们之间的语义关联,指定出相应的映射规则,实现将源本体的实例映射到目标本体,从而将多个本体连成一个整体来进行操作,达到知识共享的目的的过程。本体映射是本体集成的一个关键环节,它通过各种方法使已存在的多个本体间建立映射关系,以便在已存在的本体和新的领域本体之间进行交流时有通用的接口和共同的理解。本体映射可以看作是本体从不同角度或者不同应用领域到不同任务和应用的视图,构建本体映射是分布式环境下实现不同本体之间共享和交流的基础性任务。本体映射的步骤如图1所示:

在本体映射的过程中,领域本体自身结构的复杂性以及领域本体之间存在的异构性,使得领域本体映射还存在许多问题:

・本体映射的自动化程度不高,在构建映射的过程中。需要大量的人工和领域专家的介入,无法实现大规模的本体共享和交流。

・语义相似度的计算是本体映射中的一个非常重要的步骤,相似度计算的结果直接影响映射的准确率。而已有的相似度的计算方法只考虑了本体的部分信息,通过根据不完全信息计算得来的语义相似度来发现映射关系,从一定程度上影响了映射的准确率。

・本体映射并非只是简单的一对一的关系,更多地是一对多、多对一、多对多的关系,这使得本已复杂的本体映射规则的构建更加困难。

・现今应用的映射方法都是针对具体的应用本体,根据不同的应用本体的特点而得到的有针对性的方法,一旦本体环境发生改变,那么这些映射方法将不再适用。

鉴于本体映射存在的上述问题,我们试图引入知识地图技术来解决本体的映射和聚类问题。

2.3本体知识地图模型

本体映射的过程中应用知识地图技术,不仅可以将领域本体映射到知识地图中,将异构的领域本体在本体知识地图层进行知识链接和引导,更能将多个领域本体之间的语义关系同样也映射在知识地图中,最终在本体知识地图层完成基于语义的整合,解决语义异构的问题。本体知识地图的模型如图2所示:

对图2进行分析,得出如下结论:

首先,避免了为每个领域本体都提供一组转换函数。以往利用这些转换函数的计算在多个领域本体之间进行交流,这样的做法计算量过大,过程过于繁琐。

其次,无需再创建一个超复杂的共享领域本体来关联多个领域本体。知识地图技术类似于本体聚类技术,只需将现存的领域本体进行简单地加工和语义标注,增加领域本体问必要的语义链,即可将相关的领域本体在知识地图中进行关联。

多个领域本体根据它们之间的相关性,利用语义知识链联接起来,映射到知识地图中,形成一个既相互关联又相对独立的多领域本体集。为了便于在大量的领域本体中快速定位知识,我们为本体知识地图附加了一个本体知识地图索引,通过这个索引可以对知识地图进行检索,以便用户可在知识地图中快速找到所需知识。

2.4从领域本体到知识地图的映射框架

从领域本体到本体知识地图的映射如图3所示:

图3中,从领域本体到本体知识地图的映射框架是一个三层结构,包括领域本体层、本体映射处理器和知识地图层。

领域本体层提供基于Web上的领域信息资源构建和标注的领域本体,映射的最终目标是将这些异构的领域本体映射到本体知识地图中,从而消除其异构性和多领域性,使本体可以共享、交流和重用。

本体映射处理器将领域本体层提供的Web本体进行语义映射,将生成的映射规则以映射表的形式存储在数据库中,由此消除了本体的异构性,有利于本体共享和重用。映射表里的数据可作为语义Web的背景知识库,供匹配器使用,最终投射到本体知识地图上。

本体映射处理器是整个映射框架的核心,分为三个部分,分别是相似度计算模块、相似度修正模块和映射生成模块。

相似度计算模块由概念分析器、实例分析器、属性分析器和语义关系分析器组成。概念分析器根据语言学的映射方法来计算本体中元素件的名称和注释的相似性。实例分析器根据实例级本体映射方法来设计,使用统计学的方法,用贝叶斯网络算法来实现。而属性分析器是根据基于概念属性的本体映射方法来设计的,采用的是朴素贝叶斯的分类算法。语义关系分析器根据对本体间的各种关系的划分而设计。通过这4种分析器,产生了4种不同的相似度矩阵。

相似度修正模块,主要利用了综合评判技术,借鉴模糊数学中的模糊综合评判理论。由综合评判运算器将综合评判矩阵与这4种相似度矩阵进行运算,这相当于对4种分析器所产生的不同映射结果进行加权组合,从而达到修正映射结果的目的,使映射结果最优化。如果相似度的综合计算结果不符合形成映射的条件,那么返回领域本体层,重新选择领域本体。

映射生成模块主要完成两项任务――映射表的生成和映射执行。通过修正后的映射结果来生成映射表,将生成的映射表存入映射结果数据库中。执行映射的任务是利用已经得出的映射规则进行映射,并输入源本体的相关实例,最终将通过本体映射处理器处理过的Web领域本体,映射到本体知识地图中去。

3 实证研究

3.1资源选取

卓越网是亚马逊公司的一家中国B2C电子商务网站。亚马逊成立于1995年,一开始只经营网络的书籍销售业务,现在拓宽了销售范围,为客户提供各类图书、音像、软件、礼品、百货等商品。本文所要构建的领域本体将主要针对卓越网的图书领域,并同时涉及相关的其他商品领域,目的是揭示卓越网的商品的属性以及商品之间和商品与用户之间的复杂的关系。

卓越网上的数字信息资源的特点为:

3.1.1动态性 电子商务网站的数字信息资源不可能是一成不变的,每天都有新商品上架,旧商品下架,每增加或减少一个商品,与之相关的各类信息都要发生变化,新增加的信息会和已存在的信息重新组合,形成新的结构,这些都决定了信息资源的动态性。

3.1.2关联性 网站上的各类商品,特别是书籍,并不是一个个独立的块状信息,而是多个知识领域的集合,商品与商品之间存在着各种各样的关联,这些关联关系指导着开发人员对领域认知的角度。

3.1.3丰富性 丰富性不仅仅指商品种类的多样性、全面性,对商品的描述内容也非常丰富,不但有文档,还有图像、视频等格式。

3.1.4可获取性和共享性 商品的分类、信息不仅可以多人同时获取,而且对于地点和账户并没有要求,随时可以将有用的信息共享给他人。

基于数字信息资源的这些特点,我们需要借助语义描述对资源进行注释和关联,借助语义标注和语义整合来实现资源共享,借助语义互联实现买家、卖家和计算机的互理解。

3.2知识地图工具的选取

微软公司的Microsoft Visio虽归属于Office套件中,但须独立购买和安装。Microsoft Visio主要是一款图形制作软件,用来绘制各种各样的专业图形,还可以绘制丰富的生活图形,常用的包括编程用的流程图、工业的工艺流程图、企业组成图、网络拓扑图、ER图等,掌握熟练也可以用于数据管理、资产管理等。Microsoft Visio最擅长的还是流程图的绘制,而并非知识地图。

KMpro是基于多人协同工作的知识管理平台系统,主要是针对企业的实际需求,充分发动企业的每个部门、每个员工贡献自己所掌握的企业知识,帮助企业评估知识资产量、使用率、增长率,从而提供管理决策依据,提高工作效率,减少重复劳动。

Mind Manager又称“脑图”,是一款采用树状结构进行知识可视化管理的图形软件。该软件在思路捕捉、知识组织、图形可视化、报告生成等方面表现出色,而且与微软公司的Office套件以及Adobe公司的Reader等主流文档编辑器相互兼容。该软件包目前也可用于项目管理等其他任务类型。

Personal Brain则是一种采用网状结构进行知识组织和知识呈现的工具软件包。它在结构上突破了传统树状结构的限制,可以在不同的子级和分支中实现跳跃和连接。因此,其网状的组织架构更适合于在开放语义环境下构建知识地图。

故本文选取Personal Brain作为可视化工具。

3.3基于知识地图的多领域本体语义互联的实现

为实现基于知识地图的多领域本体语义互联,首先要构建相关的领域本体。我们将卓越网看作一个多领域本体环境,通过领域本体在本体知识地图上的映射来解决语义异构问题。根据上文中图3所示的领域本体到知识地图的映射框架,对卓越网数字信息资源中包含的语义关系进行分析。通过针对不同领域中相应的概念、属性、实例的分析,计算其相似度并构建判断矩阵。最后,根据不同领域概念间的相似关系,建立起跨领域的本体映射关系,从而实现基于知识地图的多领域本体语义互联。

卓越网数字信息资源的组织结构可以理解为多个不同领域的不同粒度的本体,将卓越网的相关数字知识资源结构导入Personal Brain,其组织结构视图见图4。

在每个领域本体内部(如人工智能书籍领域),对于相应的知识节点,都有Type、Label、Tag和Notes,支持以添加附件的方式指向知识储存路径,包括各利,类型的文件、模版、文件夹以及URL,如图5所示:

卓越网这种传统的树形知识组织模式,能够呈现一个节点和它的子节点、父节点以及同级节点和相关节点之间的层级分支关系,其表现形式与本体的结构十分相似。但这种知识组织结构难以揭示不同领域(如书籍领域与影视音乐领域)知识间的关联关系,因此必须通过不同领域间概念相似度的判断,构建跨领域的本体映射,从而在树形结构的不同枝杈之间增加联系,使知识组织结构最终演变成网状结构。

研究中,通过手动计算相关概念的相似度,在卓越网的多个不同领域中,建立跨越领域的本体映射。例如,蔡康永是一名作家,著有《LA流浪记》、《那些男孩教我的事》等一系列作品;同时也是一名女鞋设计师,设计了“Cai Shoes”;更是知名的电视节目《康熙来了》的主持人。根据概念相似度计算的结果,将不同领域中“蔡康永”这一概念视为具有满足阈值的相似性,并建立起不同领域间的本体映射。如图6所示:

在图7中,左侧的内容包括蔡康永的图书作品、影视作品和服饰设计,分别来自于书籍领域本体、服饰领域本体以及影视领域本体,并通过跨领域的本体映射,在不同的领域本体问建立起语义关联。在PersonalBrain中,将这种跨领域的多本体映射关系以本体知识地图的形式呈现,其所揭示的跨领域多本体语义互联,由单一领域本体的树形结构进化为复杂的网状结构。如图7所示:

在图8中,通过知识地图实现了卓越网的异构数字信息资源在统一的语义层次上的知识共享和查询,实现了多领域本体的语义互联。

4 结语

本文仅是对基于知识地图解决多领域本体语义互联进行初步探索,应该看到,基于知识地图的多领域本体语义互联的解决方案的研究,目前还面临着许多问题,需要在实践中逐步解决:①规范领域本体构建的解决方案;②基于多本体的数字信息资源标注的解决方案;③领域本体在知识地图中映射的解决方案。