首页 > 范文大全 > 正文

Protege本体构建工具应用调查分析

开篇:润墨网以专业的文秘视角,为您筛选了一篇Protege本体构建工具应用调查分析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要]分析protege本体构建工具的管理机制,通过应用实例的调查统计,对其应用学科范围进行总结;并从运用领域、规模、细节处理等方面入手,分析国内外4个本体实例的特点,Protege应用的优势在于是开源软件、提供多种可选择的插件以及支持基于框架和网络本体语言两种可选模式等方面,但本体关系的可视化表示有待改进。

[关键词]Protege 本体构建工具 应用

[分类号]TP391

1 Protege简介

1.1 含义

Protege的无数据首先是由马克・姆森(MarkMusen)于1987年为了一些医学项目的知识系统化而创建的,后由斯坦福大学药学院药学信息学系研究人员在其基础上研发而成。Protege常写作Protege,在斯坦福大学Protege Wila中对其的解释为:“Protege是一种免费共享的平台,为不断增长的用户群提供一套工具,用以建立基于本体(ontologms)的领域模型和基于知识的应用软件。其核心是提供丰富的知识建模和运行功能,以支持本体对不同格式的资源进行创新、可视化和管理。Protege可以为某一领域进行定制,便于知识建模和数据输入。此外,还可以用导入插件和基于程序设计界面(API)的java方式扩展,来建立基于知识的工具和应用软件”。该编辑工具最初应用于医学和信息管理领域,如斯坦福大学的Design-a-Trial、SAGE Project、Virtual Soldier等项目,目前在Protege Wiki中列有164个使用Plot6g6各版本及相关插件的项目。

1.2 管理机制

Protege之所以成为较成功的本体编辑工具,其原因之一在于有以下一套完善的管理机制:

1.2.1 Protege Wild Protege鼓励用户将自己的项目成果链接到Protege Wiki上,支持注册者对成果进行说明。因此任何登陆该网站的人都可以通过项目Wiki看到创始人愿意共享的成果,同时也可以随时注册。

1.2.2 Protege协会Protege协会集合了研发和使用Prot国§Protege方法和工具的学者及研究人员,其注册用户达到76 311人,使用成员名单达到17 313人,参与讨论成员名单达到4 122人,OWL使用人员名单达到2075人。

1.2.3 Protege国际会议Protege协会已成功举办过9次国际会议,建立了会议反馈机制,并在网上公布部分反馈信息。作为讨论Protege应用软件现状与将来发展的首要论坛,会议讨论的主题主要有:关于基于框架OWL和RDF的本体发展、语义网的本体、相关软件支持发展、医学应用软件以及可视化工具和推理与推论等。Protege第10次国际会议干2007年7月15~18日在匈牙利的布达佩斯召开。

1.2.4 Protege用户培训在Protege Wiki中列有Protegehbrary(知识库),用以介绍有关本体的知识,并有实例说明。同时Protege还提供收费的用户培训,并成立了用户协会,便于开发者和使用者以及使用者之间的交流。“使用中用户协会”包括的研究和实际应用项目,覆盖了超过100个国家。这些项目均被列入Protege协会Wiki之中。

2 Protege应用的学科范围分析

Protege Wlki中列举164个项目(统计分析的数据采集时间为2007年5月21日至6月10日),笔者逐一进行调查,其中在国内可以打开的链接有99个。下而对这99个项目涉及的学科范围进行统计分析(见图1)。

由图1可见,Protege在自然科学领域(生物和医学、信息技术、数学、工业、天文、航海、机械、石油开采、农业、人体测量学等)的应用占到了59%、社会科学方面(信息管理、经济、法律、教育、国土规划、社会、管理、旅游等)占26%、人文学科领域(语言学、历史、地理、艺术、哲学等)占16%。其中列在前4位的分别是“生物和医学”(24%)、“信息技术”(22%)、“信息管理”(10%)、和“语言学”(7%)。生物和医学所占比例最大,这与Protege开发机构为斯坦福大学药学院药学信息学系有关,在逻辑结构的创建方面比较适合这一领域;而信息技术领域占22%,说明Protege和本体这种信息组织的方式得到了技术开发者的青睐;信息管理方法和语言学则是本体开发和应用中关键因素,Protege在这两个领域中的应用也得到研发者的重视。

图中“其他”包括哲学、社会、安全、管理、天文、航海、旅游、机械、石油开采、工业、制造、农业、人体测量学等方面,说明Protege的学科使用面已相当广泛。

3 Protege应用实例分析

3.1 FMA解剖学本体基本模型

FMA全称为Foundational Model of Anatomy(解剖学本体基本模型),是数字解剖学信息系统(Digital AnatomistInformation System)的一部分。由华盛顿大学结构信息组(stmcmral Informatics Group at the University of Wasbangten)1995年开发并维护。

FMA采用象征模型表达人体的解剖学结构,构造了大约7.5万余个类、13万余条术语、20.5万余个框架以及174种槽来表示不同的关系和属性。概念和术语包括超过4.4万条规范化后的词汇,用以消除英文同义词的歧义以及超过1.5万条非英语同义词汇。术语中包括8 500条拉丁语术语、4 700条法语术语、500条西班牙语术语和350条德语术语。由于解剖学为其它生物科学提供了基础,因此FMA适用于所有生物医学领域。

FMA最突出的特色是灵活应用了“槽(slot)”及“槽”的属性“面”来表达各实体之间复杂的关系。在网页上同时提供树形结构的浏览和关键词查询,并显示被选实体的各种关系。其树形结构提供了子类(subclass)、部分(part)、系统局部(systemic part)、区域局部(regional part)等四种组织方式,力图在二维空间内显示多维结构。值得一提的是:FMA虽然现在只是使用文字描述,尚未提供可视化的内容,但是华盛顿大学组正在开发其层级可视化功能,重点是带有注释的图片管理,并且以“不仅管理者,连使用者也可以插入图片”为目标。

3.2 RadLex放射线学词典

RadLex全称为Radiology lexicon(放射线学词典),创建于2003年,由北美放射学社(RSNA,Radmlogical Societyof North America)提供全部基金资助并筹划。

RadLex目的在于提供统一结构的术语,用以放射学信息资源以及医学图片资源的捕获、索引和检索。该计划的实现

并非通过建立一个全新的词典,而是着重干吸取成功经验,在任何必要的时候选择和采用已成熟的术语和标准,如:ACRIndex(活动空腔辐射计索引)、the Unified Medical LanguageSystem(UMLS,统一医学语言系统),the Fleischner SocietyGlossaries(Fleischner社会术语表),等等。它将统一和完善其它词典中的术语,并交叉参考其他词典和标准,以提供网上的免费资源,具有“视图浏览”和“搜索”两种检索方式。

RadLex列表分为解剖学位置、发现、图像的获取与展示、图像质量、调整、关系、教学属性等几类术语,可以从相邻、子类、超类3种方式用图形表达术语之间的关系(见图2)。图形中选中对象与相关术语用不同颜色区分。相互关系用箭头和附加的文字来说明。图形可以反映出列表难以表达的关系。

3.3 BioPAX生物学途径交换

BioPAX全称为Biological Pathway Exchange(生物学途径交换)。该计划始建于2002年10月初,是在2002年8月ISMB分子生物学智能系统国际会议(International ConferenceOn Intelligent Systems for Molecular Biology)加拿大埃德蒙顿分会场第四届“生物学途径数据交换会议”的提议下建立的。其目标在于开发一个共同的生物途径数据交换平台,包括的数据库有aMAZE、BioCyc、BIND、eMIM、INOH、PATIKA、Reactome、WIT/PUMA2等。

由于OWL语言具有在本体库类目层级描述和数据交换格式方面的优势,其技术与XML工具可兼容,而用户对其表现出的兴趣和令人瞩目的技术发展前景,开发者决定使用OWL网络本体语言开发。在本体库构造过程中,BioPAX只采用了数量有限的概括性类目,而并未创建大量特定细目。一方面是因为在细目(specialized classes)的划分上分歧较多,而在大类上则易于达成共识,BioPAX就能为更广泛的用户群体服务;另一方面概括类目体系可以更方便地建立、维护和发展。为了整合的各个数据库的内容特色,BioPAX在这简洁的类目体系下,用大量的实例来代替类目细分,以便更符合提供者和使用者的认知习惯。

BioPAX的OWL文件可以使用Protege本体编辑器和OWL插件查看。BioPAX Wild中有逐步截图介绍,引导用户使用Protege浏览和分析数据。其最新版本BioPAX Level 2Version 100在的Level 1原有的代谢途径基础上,增加了分子交感、蛋白质转译修正等新内容,目前仍在完善中。

3.4 Harmon ISA区域数据资源的跨界协调计划

HarmonISA是Harmonisation of regional data resources forcross-border plannmg(区域数据资源的跨界协调计划,简称ISA-Map)的主要成果之一。该计划始于2003年4月,在2006年3月完成,由欧盟、欧洲部分国家和一些非欧洲国家基金资助,耗资共1 812 880欧元。作为ISA-Map的子项目,HarmonISA用于处理基于本体描述的地表类型和土地用途的分类,以达到英语、德语、意大利语和斯洛文尼亚语的语意会通,成为提供土地使用情况和地表植被情况的跨国界综合咨询工具。

HarmonISA采用的OWL语言编辑功能、表现出的较强的可兼容性和众多插件的支持。在开发过程中对开发工具Protege给予了相当的好评。Protege具有避免在本体库建立过程中出现错误的功能设置,相关过程中可以随时获得来自软件的帮助,并可以使用逻辑检查工具来保证类与子类的划分,在本体的框架建立时十分便捷。

Harmon ISA网站不仅提供用颜色区分土地属性的地图浏览器,还提供本体观察器。在地图浏览器中可以随时点击地图中相应所对应的土地类型,利用图例、目录、过滤目录、询问等方式中的列表来查看所对象对应的属性。本体观察器内容由“母类”、“定义”、“子类”、“领域”、“范围”等构成,可以实现逐级展开并支持跳转来现实术语之间的联系。

4 结语

作为开发平台,Protege提供了对本体的解释和对其产品的使用说明。使这种开源软件为更多人所了解、接受和利用。Protege应用的优势在于是开源软件、提供多种可选择的插件以及支持基于框架和网络本体语言两种可选模式等。Protege虽然开发于生物医学领域,但可以针对其他学科进行适应性调整,不断进化使其成为世界上众多研究机构所采用的本体建模工具。

从对Protege用户列表中所链接的项目情况看来,用户多采用语词列表的表达方式,用多重列表来表达多维关系,本体关系可视化表示仍有待开发。

Protege虽然支持多语种,但使用中文构建的本体并不多见,至今在有关文献中可见的本体有李景的“花卉学本体模型’、董慧的历史领域本体“国共合作数据库”、王莉的“学位论文服务系统”,崔雷、赵鹏的“临床药物本体”和何琳、曹玲的“农业古籍本体”等。如何消除在某些科学前沿领域对外语,尤其是英语的依赖,将成为开发中文环境下的本体模型所面临的重要问题之一。