开篇:润墨网以专业的文秘视角,为您筛选了一篇面向藏文检索结果的聚类研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
【摘 要】随着信息的迅猛发展,针对检索系统的改进已逐渐成为研究的热点。通过对检索结果的进一步处理已成为研究的热点领域。采取聚类算法的研究是一种有效的改进策略,通过对检索结果进行聚类,将检索结果进行分类,这方便用户快速找到自己所需信息。本文是将传统的聚类算法运用到信息检索系统中,对检索得到的结果进行聚类,达到对结果分类区分。
【关键词】信息检索;藏文;聚类
一、引言
随着IT技术的发展,我们处于一个信息爆炸的时代。目前人们对信息索取的需要也变得越来越严格,如何从海量数据中高效、准确地获得自己所需的信息,是目前国内外专家学者亟需研究的热点。信息检索是指从信息资源的集合中查找所需文献或查找所需文献中包含的信息内容的过程。藏文信息检索技术对于促进藏文信息处理技术的发展及广大藏语区的信息化程度的发展意义重大。藏文信息检索技术近年来在各个方面也取得了一些进展,目前已完成了基本的搜索功能,包括分词、去停用词、编码转换、建立索引、以及查询等关键技术[1]。为使用户能够从大量的检索信息中快速地找到自己感兴趣的内容,可以将聚类技术应用于搜索引擎中,通过对检索返回的信息进行聚类,可以使用户快速地定位到自己感兴趣的信息所在的类别,方便用户的查询。
二、藏文检索关键技术
藏文信息处理中的非常重要的工作就是藏文分词,目前很多专家对藏文分词作了研究并开发了相关分词系统,如何切分紧紧相连的字符又能最大程度保持原意,目前对于藏文的切分主要是BCCF(基于格助词和接续特征的分词)法[2]。
Lucene是一个用Java写的全文检索引擎工具包,可以方便地嵌入到实现针对应用的全文索引检索功能。源码中核心类包主要有3个: analysis、index、search。其中, analysis主要用于切分词,切分词的工作由Analyzer的扩展类来实现。由于Lucene默认不支持藏文分词,因此需要扩展接口以实现藏文分词。利用扩展藏文分词是实现基于Lucene的藏文信息检索的重要一步
支持藏文分词以后,基于Lucene的藏文信息检索以后的工作与汉语中的操作一致,还要对文档建立倒排索引表、相似度计算等。
三、检索结果聚类算法研究
聚类是在未知数据情况下寻找自然分组的过程,可以提高结果相关度,增加搜索结果针对性。对本文,聚类是针对检索结果形成不同分类,缩小用户搜索范围,只要用户选定某一话题就可针对该话题搜索,给用户一个选择范围弥补搜索的不相关性。聚类结果会以层次.关系形成导航栏,用户根据自己需求来选择要浏览的类别或下面的子类。目前,对检索结果进行聚类的算法主要有两大类。第一类是对现有的传统聚类算法进行使用或者改进,以适应信息检索结果的聚类,现有聚类算法主要以k均值为主;第二类是对检索信息的聚类技术是主题分析方法,首先获得结果集包含的多类信息,并抽取相应的特征,然后合并相关文档以形成一个类别,此方法描述每个类别所反映的主题[4]。由于传统聚类算法实现起来简单,本文拟采用传统的聚类算法对信息检索结果的聚类。
传统聚类算法有划分法、层次法等,目前最常用的是划分法中的k均值算法,由于此算法具有速度快等优点,本文拟采用此算法。在检索的过程中,将所有包括查询项的文档进行建模,然后执行k均值算法对检索结果分类。
k均值算法的基本过程为:(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心;(2) 根据每个聚类对象的均值,计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象划分;(3) 重新计算每个聚类的均值;(4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤(2)。
聚类过程中,对每个文档利用向量空间模型建模,从而将每一个文档表示成一个向量模型,向量上的每一个值对应的都是一个词在某一个文档中的文档频率-逆文档频率值。Tf值,公式如下:
四、总结
本文在基于藏文信息检索的上对结果进行聚类,以提高检索效率,将最终结果展现为目录分类形式。由于传统的聚类算法原理简单,实现起来高效快速,故本文选择了传统的聚类算法k均值算法进行聚类。本文目前的研究还很有限,算法的效率有待提高,或者使用更高效的算法以达到提高聚类效率以及准确率的目的。藏文信息检索技术将是未来藏文信息化处理的重要方向,具有很大价值,对于检索结果的聚类研究将是未来的热点研究领域。
参考文献:
[1]苏谭英,等.一种基于 LUCENE 的中文全文检索系统[J].计算机工程,2007.
[2]陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003,1:75-82.
[3]万德稳. 藏文搜索和搜索结果聚类研究及系统实现[D].西南交通大学,2013.
[4]刘铭,刘秉权,刘远超. 面向信息检索的快速聚类算法[J]. 计算机研究与发展,2013,07:1452-1463.
作者简介:蔚承刚,男,硕士研究生,研究方向为网络与应用;韩争艳,女,硕士研究生,研究方向为云计算;戴玉刚,男,教授,方向为自然语言处理;
项目名称:西北民族大学中央专项资金资助研究生项目(项目号:ycx14031)