开篇:润墨网以专业的文秘视角,为您筛选了一篇网络信息检索环境下的语义检索研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘要: 互联网给用户的信息检索带来便利的同时也导致大量冗余信息出现,使得检索效率低下。语义检索通过对用户检索要求的语义分析使得检索效率以及检索准确度大大提升。本文在分析语义检索基本要素和检索原理的基础上,介绍三种常用的语义检索系统,体现语义检索在网络信息检索环境下的优势。
Abstract: The Internet has brought convenience to the users' information retrieval, but also led to a large number of redundant information, resulting in inefficient retrieval. Semantic retrieval makes retrieval efficiency and retrieval accuracy greatly enhanced through semantic analysis of the requirements of the users to retrieve. Based on the analysis on basic elements of semantic retrieval and retrieval principle, this paper describes three common semantic retrieval systems, which embodies the advantages of semantic retrieval in network information retrieval environment.
Key words: semantic retrieval;ontology;Semantic Web
中图分类号:TP39 文献标识码:A 文章编号:1006-4311(2013)10-0203-02
0 引言
互联网的快速发展和广泛应用,为人们提供了一个广阔的信息空间,也为信息检索提供了一个广阔的发展平台。互联网的开放性和自由性使得网络信息资源呈现出数量巨大、异构性、分散性和动态性特征。但由于网络信息时效性强以及互联网缺乏必要的监督和质量控制,使得大量垃圾信息混于高质量信息当中,增加了有效信息获取的难度,影响检索效率。因此,使用有效的检索工具才能使得网络信息资源为人们所充分利用。
1 网络信息资源点与检索工具
上世纪90年代中期出现的搜索引擎技术目前已经成为检索各类网络信息资源最主要的检索工具。搜索引擎一般工作流程是借助于网络自动搜索软件(Robot、Spider等)访问浏览网页并抓取文件,并通过已浏览的网页中的链接访问更多网页。在抓取网页的同时对页面文件进行分析分解以及索引,建立索引数据库。当用户在搜索引擎界面输入搜索词后,搜索引擎对搜索词进行处理,按照处理后的搜索词在索引数据库中找出所有包含相关内容的网页,并更具排名算法计算出排名顺序然后按照一定的格式返回到搜索页面。普通的搜索引擎缺点在于返回的检索结果数量巨大,无关和冗余信息较多,用户必须从中进行筛选。虽然布尔运算、截词运算、自然语言检索等技术使用大大提高了准确率,但对用户检索素养要求很高。针对以上问题,学者把研究对象放到对词意的挖掘上,探索实现基于概念匹配的检索技术和方法,基于本体的语义检索成为研究重点。
2 语义检索基本要素和原理
随着人工智能以及自然语言处理的发展,尤其是语义网技术的兴起,自上个世纪以来语义检索研究得到了迅猛的发展。虽然对于语义检索在概念上到目前为止没有统一的界定,但是不同的研究都有一个共同之处就是基于对信息资源的语义处理时限效率更高的检索[1]。本体是语义检索的基础,其主要任务是对信息资源进行语义表达。
本体(Ontology)原本是一个描述客观事物本质的哲学概念,是对客观存在的一个系统的解释和说明。如今,本体是一种能在语义和知识层次上描述概念体系的有效工具,用来描述概念以及概念之间的关系,通过概念之间的管理来描述概念的语义。本体作为一种最先进的知识表示方式能够充分的描述所以的数据结构,是推理和关系数据库的结合[2]。概括的讲本体能够在人们和应用系统之间达成对术语含义的共享和共同理解,通过函数(functions)、关系(relations)、原则(axioms)和实例(instances)、类(classes)这5种元素表达本体中的知识,使其具有逻辑推理和语义识别功能,帮助检索系统跨越目前基于关键词的检索过程中的上述问题以实现语义检索[3]。目前实现网络检索的技术主要有两种:第一种,依赖于编码处理,以分类模式来描述信息资源以实现检索的目的;第二种,是通过全文检索查找文本中包含用户指定的词语的信息源。语义检索的语义信息的提取和处理是基于语义网方法与技术的查询处理与文档标注及索引。基于本体的查询处理包括:查询消歧和查询扩展,通过消岐,明确查询的确切所指,准确反映用户的信息意图,继而通过加入与其语义相关的其他概念来实施扩展。在对文档进行语义标注与索引的基础上,先进行实例检索,再据此返回所有以检出实例标注的文档信息是语义标注文档检索的一种普遍思路。相对于传统的网络检索,基于本体的语义检索的优势在于体现语义信息,准确表达用户的查询意图。
3 常见语义检索系统介绍
3.1 一体化医学语言系统(UMLS) UMLS(Unified Medical Language System)作为计算机化的情报检索语言集成系统,是美国国立医学图书馆(NLM)主持的一项长期开发研究计划。它不仅是自然语言处理、语言规范化以及语言翻译的规范化工具,更是实现实现跨数据库检测的词汇转换系统并且还可以帮助用户连接情报源,包括书目数据库、事实数据库、计算机化的病案记录以及专家系统过程中对于其他的电子式生物医学情报的一体化检索。UMLS包括情报源图谱(Information Sources Map)、语义网络(Semantic Network)、专家词典(SPECIALIST Lexicon) )和超级叙词表(Metathesaurus)四部分。其中超级叙词表是术语、生物医学概念、等级范畴、词汇及其涵义的广泛集成。1997年第8版的超级叙词表收录了739439个词汇,这些词汇来源于30多种生物医学词表和分类表的能表达33万多个概念的,词汇量达到空前规模。而语义网络是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具,是为建立概念术语间相互错综复杂关系而设计的。UMLS的语义网络不仅运用了常规的语义控制手段,如属分、相关关系控制、语义等级,同时在语义规范和语义关系分析、延伸等多方面有许多创新。
3.2 语义网(Semantic Web) 为了能够在网络环境下也同样实现语义检索的功能进而开发研究了语义网的W3C项目。W3C项目是将网络上的数据通过一种方式进行连续和定义,通过这种定义和连续可以根据人的不同需求实现计算机将数据自动进行整合以及再利用,从而达到更有利于人机协作的目的。资源描述框架(Re-source Description Framework,简称RDF)是语义网的核心构件。在网络中,一般用元数据对资源进行描述,而RDF则是处理元数据的一个基础。RDF认为一个具体的元数据是由属性值(Statements)、属性(Properties)和资源(Resources)构成的三元关系模式[4],实际上是关于一个特定的资源特定属性的取值声明。使用RDFS语言,元数据的设计者不仅可以定义所描述资源的类别、属性以及词汇,还可以定义这些属性或者对象的关系以及对象与属性之间的相互关系,同时还可以进一步定义这些资源的对象、属性以及属性应用类别和取值条件等,通过这些定义从而能以计算机理解的标准方式对元数据进行描述语义内容以及元数据的结构关系。
3.3 WordNet WordNet是一种基于认知语言学的英语词典,它是由普林斯顿大学的计算机工程师、心理学家和语言学家联合设计的不仅是把单词以字母顺序排列,并且是按单侧的意义组成的一个“单词的网络”。WordNet将所有的英语词汇按词性分为功能词、形容词、动词、名词和副词五类。动词被组成各种推演关系;名词在词汇记忆中被组成主题的层次;而形容词和副词被组织在N维超空间中。根据WordNet关系分析最大的优势是能在他的单词网里通过相关关系消除歧义,因为WordNet分析主要是关系分析。WordNet在名词的语义消歧率可以超过60%。
4 结语
从以上三个语义系统来看,无论是相对封闭的ULMS系统还是开放式的语义网、wordnet系统都具有较强的灵活性和扩展性。相对于常见的关键字信息检索,语义检索不需要用户使用专业的检索策略,也不需要语法严谨的检索式,用户可以将自己的信息需求通过自然语言直接表达出来。语义检索在后台经过大量的计算,分析用户的用户的语义文档信息,充分利用各种语义关系消除歧义将用户真正需要的准确的信息资源反馈给用户,将用户的检索效率提升60—80%。因此,语义检索无疑是当前信息爆炸条件下最适合的网络信息检索方式。
参考文献:
[1]黄敏,赖茂生.语义检索研究综述[J].图书情报工作,2008,(6):63-66.
[2]Studer R, Benjamins R, Fensel D. Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25(1-2):16l-197.
[3]翁畅平,沈娟.基于Ontology的个性化语义检索系统研究[J].图书馆理论与实践,2009(10):77-80.
[4]李朝葵,陶卫国.语义检索[J].情报科学,2002(11):90-92.