首页 > 范文大全 > 正文

构造基于语义的信息检索框架

开篇:润墨网以专业的文秘视角,为您筛选了一篇构造基于语义的信息检索框架范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘要】当今信息时代,信息检索技术的使用非常普遍,但基于语义的信息检索技术依然是一个研究热点。它主要依靠语义网这个“聪明”的网络实现语义识别和语义扩展,从而得到更高效的检索结果,弥补了以往检索技术上的缺陷。本文主要介绍了如何构造一个基于语义信息检索框架

【关键词】语义网;信息检索

在信息瞬息万变的今天,人们对信息检索的要求越来越高,我们希望输入关键字后,能够在众多网站中搜索到所有有用的、符合实际搜索内容的信息。人们在信息检索方面的需求日趋增长,而当今的万维网主要是依靠超链接技术完成网页之间的链接,万维网按照信息搜索的需要,依据关键字利用超链接技术在众多网站中搜寻相关信息并反馈给用户,却不能真正按照用户要求准确、自动搜寻和检索网页,反馈信息有时并非用户想要的。人们渴望有一种网络能够真正“看懂”网页内容,成为“聪明”的网络,语义网在此环境下应运而生。

1.语义网简介

Tim Berners-Lee在2000年提出了语义网概念,并做出描述:语义网是当前万维网的扩展和延伸,其信息具有充分的、完备的语义定义,能够在计算机之间以及人与计算机之间建立语义上的理解与合作。近来,国内外掀起了语义网研究的热潮。

语义网(Semantic Web)是人们追求的一种理想网络,语义网中所有的信息都被赋予明确含义,计算机能够自动处理和集成网络中有用信息,体现出语义网“智能”的一面。

语义网涉及到的相关技术有:HTML、XHTML——用于表示信息的标记语言;XML、XSL、XSLT、SMIL——用于描述内容的标记语言;RDF、RDFS、XRDF——语义描述和关系描述;DAML、OIL、OWL——满足逻辑和证明要求的本体语言。

2.基于语义的信息检索框架

基于语义的信息检索框架,主要的构造思路是:首先针对要检索的信息内容搜集相关门户网站,并将这些网站信息构造一个网页文档数据库,从中读取文档并进行文档预处理,通过分词技术进行分词,提取出在文档数据库中出现频率高的词加入到文档特征库中,构造文档特征索引库。利用Protégé工具创建本体库。每次进行信息检索时将输入的关键词在本体库中进行推理和检索,并对语义进行扩展,将扩展后的关键词进行特征匹配和检索,最后将检索结果按需要排序并显示出来。

3.模块功能及相关技术

3.1 文档预处理模块

文档预处理模块完成的功能是:对主题门户网站的网页文档库中的每一篇文档提取其特征向量,对提取的特征向量进行降维处理后,加上URL,加入文档特征库中,构成文档特征索引库中的记录。

文档预处理模块可采用基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)实现分词操作。

ICTCLAS主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS是当前使用广泛的汉语词法分析器。

3.2 OWL本体库模块

创建本体库通常采用protégé工具实现,protégé是一个由史丹佛大学开发的本体编辑和知识获取的开源软件,它提供可视化的方法支持本体模式与实例的创建、显示和维护。在主题门户网站中抽取关键词,将抽取的关键词作为本体,利用protégé工具手工创建本体库。

3.3 关键词扩展模块

本体库创建好后,利用扩展关键词技术使得扩展后的词能够在本体库中进行检索,该模块可以对原始的检索关键词进行语义扩展,形成扩展后的检索关键词集合,将其再交由特征匹配与检索模块。

语义索引模块首先将本体中的相关概念提炼出来,使概念之间的关系更加具有语义逻辑,然后把用户所需检索的关键信息抽取出来,把本体库中的实例与抽取的关键信息进行匹配,对实例集合中的实例进行语义查询,得到语义查询结果。

利用RACER插件对本体库的逻辑结构进行检查,保证逻辑的准确性。外部推理我们使用RACER推理机,RACER推理机是一个开源的插件,可以安装在Protégé工具中,完善Protégé的功能。

RACER只提供本体逻辑推理,在实际操作过程中JENA可以弥补RACER推理机的不足。JENA提供API支持RDF、RDFS和OWL等本体数据,正常运行的模型可以调用和存储数据,并支持不同数据存取机制。JENA还包括支持OWL的推理,主要采用基于通用规则的推理引擎。在利用OWL推理引擎进行推理过程中,用户可用JENA的API在对事件进行监听,可及时通知的模式变化,提高推理效率。

3.4 特征匹配与检索模块

特征匹配与检索模块对文档特征索引库进行特征匹配与检索。文档实现一次检索的过程是:用户通过检索界面收集到检索关键词以后,使用本体推理与检索模块,依据每一个检索关键词在本体库中通过推理与检索,搜索到本体库中与检索关键词有语义联系的术语,返回给关键词语义扩展模块,由该模块对原始的检索关键词进行语义扩展,形成扩展后的检索关键词集合,再交由特征匹配与检索模块对文档特征索引库进行特征匹配与检索,把检索再交由结果排序与显示模块排序并显示。这就是一次检索过程。

我们可以采用词汇相似度和语义相似度相结合的方法来提高特征向量匹配的精度,其主要步骤:计算出相应的词汇相似度和语义相似度;从所有的相似度值中选择最大的一个,将这个相似度值对应的两个元素对应起来;从所有相似度值中删去已建立对应关系的元素的相似度值;重复上述第2步和第3步直到所有相似度值都被删除;未建立起对应关系的元素与空元素对应。

根据上述算法建立起元素的一一对应关系后,集合的相似度就等于其元素对的相似度的加权平均。又因为集合的元素都平等,可将所有的权值取成相同的,于是集合相似度等于其元素对相似度的算术平均。

Lucene是一个开放源代码的全文检索引擎工具包,提供了完整的查询引擎和索引引擎,部分文本分析引擎,可以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。当检索条件简单时,通过Lucene引擎进行全文检索或直接进行数据库检索。而检索条件复杂时,则对检索条件进行语义分析、中文分词,抽取有效的检索条件,进行语义检索,或扩展全文检索及数据库检索的检索条件,以提高系统的查全率及查准率。

3.5 排序与显示模块

排序模块接受特征匹配和检索模块的结果,对其进行排序并显示。排序的依据可以由用户指定,如根据文档匹配程度进行排序、根据文档的时间进行排序等。

4.结束语

基于语义的信息检索与传统的基于关键字的信息检索相比较,前者在查准率和查全率方面都有了明显的提高,这大大改善了信息检索中出现的漏查、错查现象。目前,基于语义的信息检索技术还在不断完善,我们期待该技术能够早日成熟并被广泛使用。

参考文献

[1]宋炜,张铭.语义网简明教程[M].北京:高等教育出版社,2004.

[2][希]Grigoris Antoniou,[荷]Frank van Harmelen著.陈小平等译.语义网基础教程[M].机械工业出版社,2008.

[3]刘爱军.基于领域本体的语义信息检索及相关技术研究[D].西安:西北大学,2008.

作者简介:李静(1979—),女,湖南邵阳人,主要从事一线教学工作和计算机应用研究。