首页 > 范文大全 > 正文

形式化概念分析在信息检索中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇形式化概念分析在信息检索中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:互联网上的信息量每天都在以惊人的速度膨胀,搜索任务变得越来越艰巨。如何能够在如此大的海量数据中检索到符合用户需求的信息,成为信息检索领域的主要问题。通过形式化概念分析方法,将信息进行归类组合,变为有结构有意义的领域知识,并用二维表表示出领域知识的形式背景,基于此二维表构建对应概念格模型,将其作为下一步检索的基础库,并利用此模型完成基于输入关键词的信息检索,对此进行了论述。

关键词:形式化概念分析;形式背景;概念格模型;信息检索

中图分类号:TP391文献标识码:A文章编号:1672-7800(2013)001-0121-02

0引言

信息社会的快速发展,丰富了人们的生活,便捷了人们的工作等各种需求。为了满足用户的需求,网络上的信息量每天都在以惊人的速度膨胀,从而使得检索任务更加艰巨,尤其是从海量数据中找到和用户需求匹配的内容成为信息检索首先要考虑的关键问题。

所谓信息检索(InformationRetrieval),顾名思义,它是一门搜索信息的科学,如在文件中搜索信息、搜索文件本身、搜索描述文件的元数据或是在数据库中进行搜索,如在相关的独立数据库或是超文本的网络数据库等(如万维网)。现代意义的信息检索,是指在现有互联网络提供的海量信息中,依照用户的信息需求,根据一定的检索查询算法及工具,检索到与用户需求相匹配的结果的过程。信息检索的发展必须紧随用户需求的发展与变化,必须随着信息技术的爆炸式发展而产生质的飞跃,必须在不同的发展阶段遵循不同的商业模式。

形式概念分析(formalconceptanalysis,FCA)是Wille提出的一种从形式背景(formalbackground)建立概念格来进行数据分析和规则提取的强有力工具,已被广泛地研究,并应用到机器学习、软件工程和信息获取等领域。它用于概念的发现、排序和显示。在形式概念分析中,概念的外延被定义为属于这个概念的所有对象的集合,而内涵被认为是所有这些对象共同拥有的特征(或属性)集,这就实现了对概念的形式化,所有概念连同它们之间的泛化和例化关系构成了一个概念格,概念格是形式概念分析的主要数据结构。通过概念格所表达的对象集之间的关系可以很清楚地刻画不同类的对象之间的语义关系,因此可以方便进行将来的基于概念格的信息检索。

国内外的许多大学、机构等单位都对形式概念分析方法进行了不少的研究,这为其在今后各方面的发展提供了极具价值的理论基础,包括应用广泛的信息检索领域。具体在信息检索领域,本文将基于FCA的信息检索分成形式背景描述、基于形式背景的概念格构建以及基于概念格的信息检索等三个步骤。

1形式背景描述

网络上的信息在语义上是无结构的,这就给检索过程带来很多不便,比如,检索库过于庞大,会导致检索的速度变慢;检索时候忽略语义分析信息,会导致检索结果不够精确,从而给用户带来很多负担,等等。由此,本文首先将信息进行分类,构成不同领域的领域知识,其中用形式背景来具体描述此领域知识,并依据此来进行下一步概念格的构建及信息检索。

形式化概念分析方法的基础是形式背景,所有领域知识的形式背景我们可以用一个二维表列出。先介绍什么是形式背景。

形式背景K是由一个三元组(O,A,R)组成。其中O是对象,A是属性集,R是O和A之间的关系。记为:K=(O,A,R)且RO×A,如果o∈O,a∈A,如果o具有属性a,则说o与a是相关的,记为oRa,或者(o,a)∈R。一个形式背景可以用二维表来表示。本文给出一个形式背景K描述的例子。其中,K=(O,A,R),O={o1,o2,o3,o4},A={a1,a2},关系R通过表1描述。

表1形式背景的关系描述

R12a112a212O11212×O212×12×O312×12×O412×12122概念格模型构建

概念格模型:是形式概念分析理论中的核心数据结构,它根据二元关系建立起一个概念层次结构,很好地反映了对象和属性之间的联系以及概念之间的泛化和例化关系,这样就很容易在概念层次结构上建立数据之间的依赖或因果关系模型并进行分析。将二维表表示的形式背景转化成相应的概念格模型,本文进行的都是基于此概念格模型的检索。

序偶(M,N)是形式背景K=(O,A,R)中的一个形式概念,当且仅当MO,NA,称M为概念的外延,N为概念的内涵。图1给出了形式背景K所对应的概念格结构。

图1概念格结构

通过形式背景K可以建立4个形式概念结点,如图1所示。这4个节点分别如下:C1=({o1,o2,o3,o4},Φ);

C2=({o2,o3,o4},{a1});

C3=({o1,o2,o3},{a2});

C4=({o2,o3},{a1,a2})。在一个形式背景的概念格结构中,对象集和属性集都分别具有自己的上下层次关系。在概念格模型中,对象集从上到下是依此细化的过程;属性集是逐渐增加的过程。这就体现了,每当属性集增加时,就会把对应的对象集进行进一步细化,这就能够使检索结果更加符合用户的需求。

3利用概念格进行基于检索属性的检索

所谓知识,就是在结构上比信息更加有意义。首先我们会用领域知识的形式背景用二维表表示出来,二维表的行代表属性集,列代表对象集。然后根据这个二维表构建形式背景的概念格结构模型,作为检索库。在概念格结构中,每一个结点代表一个形式概念,包括对象集和属性集两个部分。

把用户输入的检索关键词作为检索属性集,将其与相关领域的概念格结构中的结点属性集逐一匹配,找到最为符合的结点。那么,这个结点的对象集即是检索结果。例如,在第1部分举例的形式背景中,如果用户输入的检索关键词为a2,那么检索的对象集结果是{o1,o2,o3};如果输入的检索关键词为a1,则检索的对象集为{o2,o3,o4};如果输入的检索关键词为{a1,a2},则检索结果为{o2,o3}。

4结语

本文提出一种基于领域知识形式背景的检索方法,将信息知识化,使其具有某些指定的含义。将二维表表示的形式背景转变为概念格结构模型,作为检索的基础,这样就能够挖掘信息在特定领域的深层次语义,使得检索结果较为精确,较为接近用户的检索需求,从而减轻用户的负担。将来的工作着眼于通过对领域知识的形式背景的动态重构建立其概念格,适应页面不断发展变化的特点,挖掘检索关键词在相关领域的深层次语义,从而使得检索结果较为符合用户的检索需求。

参考文献:

[1]BEINWW,COOMBSJS,TAGHBAK.Amethodforcalculatingtermsimilarityonlargedocumentcollections[C].Proceedingsof2003InternationalConferenceonInformationTechnology:CodingandComputing(ITCC2003),2003.

[2]黄敏,赖茂生.语义检索研究综述[J].图书情报工作,2008(6).

[3]陆勇,侯汉清.用于信息检索的同义词识别及其进展[J].南京农业大学学报,2004(3).

[4]张迎春,闫德勤,张丹枫.基于粗糙属性向量树的属性约简新方法[J].计算机应用与软件,2010(8).