开篇:润墨网以专业的文秘视角,为您筛选了一篇基于字典的藏文分词系统实现研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘 要
随着对语言文字信息处理研究工作的不断加深,藏文信息处理技术也逐渐从字信息处理走向了语言信息处理。跟日语、汉语、韩语等语种的信息处理相同,藏文自动分词( Tibetan Automatic Word Segmentation) 是藏文信息处理中的一项必不可少的基础性工作,在此基础上才能划分短语、抽取概念以及分析主题,以至自然语言理解,最终实现智能化。对于不同应用环境,藏文自动分词需要采用最合适的算法,本文通过对藏语语料的统计分析和藏语词的分布特点、语法功能的研究,提出了设计开发基于词典库的藏文自动分词系统,力求为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定基础。
【关键词】藏文信息处理技术 藏文自动分词 分词系统
1 藏文分词研究现状
随着中国地区的科技和文化逐步发展,涉及到藏文信息的应用正在得到越来越多的关注和使用,基于藏文信息处理技术的应用因此应时而生。其中出现了包括藏文输入法,藏文电子词典,藏文搜索引擎,藏文机器翻译系统等大量的基于藏文信息的应用。但是,由于这些应用都需要藏文分词作为先决条件,这使得藏文分词的工作量急剧上升,而人工分词会耗费大量的人力物力,而且已经远远不能满足这些应用的需求和增长。
在这样的时代背景下,藏文自动分词的研究价值就体现出来了。藏文自动分词可以为藏文输入法提供联想率最高的单词,可以为藏文电子词典提供藏语语料,可以为藏文搜索引擎提供关键词,为藏文机器翻译提供断句等等。可见,藏文自动分词是藏文自然语言理解的一项基础性工程,也是一项必不可缺的工作。藏语自然语言理解在机器翻译、信息检索、智能输入、校对、自动摘要、自动分类和词典编纂等领域有着广泛的应用价值。
藏文自然语言处理可以借鉴亲属语言汉语分词研究的已有成果和成功经验。藏文和英文分词有很大不同(英文单词由空格隔开),藏文自动分词需要对藏文的基本特征、使用范围、用途、参考标准、藏语分词用术语、藏语分词单位、藏语分词原则等进行研究,需要对于不同应用环境,采用最合适的算法。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。藏文自动分词在藏文文本分析的聚类、分类、检索等技术领域都是必不可少的关键基础,而分词系统的速度和效率直接决定着数据分析的能力。在英文中,单词间以空格为界自然分开,而藏文中仅音节字、句子和段落前后可以通过分界符划界,单词间并没有明显的分界符。
目前藏文分词的方法组要有以下五种:
一是格分析法:这是藏语语法理论体系中固有的语法规律,藏语有比较完善的形式逻辑格语法理论体系。格关系理论和方法可以分析藏文句子的语义逻辑关系;可以做格关系的逆过程,就是通过格助词与格关系来判断通过格切分后词汇的准确度。
二是HNC(Hierarchical Network Concepts)概念层次网络理论。HNC主要应用在藏文词汇概念的语义网络中,藏文词汇语义网络用手工加统计的方法创建,其核心是联想意义和上下位所属关系。
三是二元属性描写方法。
四是匹配方法:在藏文中将格分析之后的藏语短语作为匹配的对象。根据匹配单位的需求可分为最大匹配法和最小匹配,根据消歧需求可分为正向匹配和逆向匹配等。
五是统计方法:主要应用在获取先验知识方面,如:藏文大丁字符信息表、藏文音节表,藏文各种语言单位的二元模型、藏文格助词的配价概率、藏文动词词表等。
本文从藏文句、词和字切分特征,提出一种藏文分词实现的方法。
2 基本思路
藏语属汉藏语系藏缅语支,它是一种拼音文字,属辅音文字型,分辅音字母、元音符号和标点符号3个部分。其中有30个辅音字母,4个元音符号,以及5个反写字母(用以拼外来语),辅音字母每4个字母为一组,共7组半。藏文被微软定义为复杂文种,因此藏文具有不同于中文或英文的自身特点,因此如何根据藏文自身的特点设计出一个分词准确率相对较高的分词算法就显得比较重要,本文以下面的藏文特征来着手解决分词问题。
藏文句切分特征:藏语是SOV型语言,即谓语动词后置型语言。动词是句子的核心,决定着格助词的添接类别,因此可以借助格助词来表达句子含义的作格特征。藏语短语具有后修饰特征,一般情况下,藏语形容词、数词、代词等与名词结合构成短语以及动词与助动词结合构成短语时,其中心语在前,修饰语在后。
藏文词切分特征:藏语词从总体上分为实词和虚词两大类。从藏文词语的形态特征来看,明显的切分特征主要有以下特点:
(1)格助词接续特征:藏文格助词的个数不多,但使用频率极高。大多数藏文格助词在添接时,要严格按前一词(或字)后加字的黏着性形态变化规则添接。
(2)动词的曲折形态特征:现代藏语只有动词还保留着时、式、态等曲折形态变化。这是动词有别于其他词类的重要特征。
(3)名物化词缀特征:藏文动词、形容词在句子中修饰名词性成分或作非谓成分时,一般都要进行名物化转换,即要添接名物化后缀。
(4)重叠结构特征:藏文的重叠结构主要发生在形容词当中,常见的重叠形式有AA式、ABB式、ABCB式等三种。
(5)动名词的动词性词缀特征:藏文动名词兼有动词和名词两种语法功能,是藏文特有的一类词。其特点是通过后接固定的几个动词性词缀实现词性转化。
藏文字切分特征主要有以下特点:
(1)音节特征:藏文是拼音文字,由30个辅音字母、4个元音字母以及上、下加字组成。藏文字以音节为单位,每个音节最少可由一个辅音字母构成,最多可由7个字母拼合而成,各音节间用音节点分隔。
(2)拼写特征:藏文自左向右书写,组成音节时以基字为中心分为前加字、后加字和又后加字,基字可横向和纵向双向拼写,而前加字和后加字只能横向拼写。
(3)形态特征:藏文由确定的10个辅音字母作后加字,其形态特征都发生在这10个确定的后加字上。
(4)标点符号特征:藏文有一套独立而完整的标点符号体系,主要在篇章、段落、句子和字之间起分界符作用。
利用了上述句,词,字切分特征,并在对基于字典最大匹配算法的了解基础上,本文提出了一种“段落拆分――句子拆分――字典匹配”的藏文分词方法,并由此方法的分词结果以文本文件形式导出,从而生成藏文文本信息的分词结果。
3 基于字典藏文分词系统的实现
文本扫描顺序、匹配原则和分词字典是基于字典的藏文分词方法的三个非常重要的要素。文本的扫描顺序有自待匹配字符串尾部向前扫描的逆向扫描、自待匹配字符串头部向后扫描的正向扫描和将正向扫描和逆向扫描的结合双向扫描;常规藏文字典和特殊领域的专业术语字典组成了分词字典;而最大匹配算法主要包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。其主要原理都是切分出单字串,然后和词库进行比对,如果是一个词就记录下来,否则通过增加或者减少一个单字,继续比较,一直还剩下一个单字则终止,如果该单字串无法切分,则作为未登录处理。本文采用了正向最大匹配算法来进行藏文的分词,同时允许用户添加自定义的词典库。
3.1 段落拆分
藏文的段落标志跟中文的段落标志是一样的,也就是说,我们可以把提行空两格看做是一个段落的标志。两个段落的标志之间为一个段落。一篇文章中,除了两个段落标志之间为一个段落,文章的开头和结尾也有一个段落,这样,就可以把一篇文章分为2+(段落标志-1)个段落,然后对每一个段落进行句子拆分。
3.2 句子拆分
切分句子是将源藏文文本语料依据藏文分句形态标志信息(主要是藏文分句符号)分解成相对独立的藏文句子,这个过程要考虑英、藏、汉多语种混排文本,即分句要考虑多语言的句子边界信息。同时要保留原始文本的所有信息,保证文本的原貌不发生变化。语言分类是以句子为处理单位,把句子按不同的语言分割成若干不同的语块。在以后的处理过程中,根据不同的语言块进行处理。
3.3 字典匹配
本文采用的字典匹配算法为正向最大匹配法(MM),其目的是将最长的复合词从语句中分离出来,它的基本思想是:假定分词字典中的最长词条长度是k,则首先截取被处理文档的前k个字作为一个匹配字段查找分词字典,若字典中存在这样一个k字词,则匹配成功,从而将该匹配字段作为一个词从待切分字符串中切分出来。相反,若字典中找不到这样的一个k字词,则匹配失败,此时去掉该匹配字段中的最后一个字,将剩下的字符串作为新的匹配字段重新进行匹配处理,如此进行下去,直到匹配成功或剩余字串的长度为零为止,这样就完成了一轮匹配。然后从文档剩余部分的第一个字开始取下一个k字字串进行新一轮匹配处理,直到文档被扫描完为止。
本文采取的正向最大匹配算法用在句子拆分之后,对于每个句子,截取字典中词语最大长度k个的字符,字典最大长度词语的长度在录入字典是成为一个记录。然后把这个k长度的字符串跟字典里的单词比较是否有相匹配的情况,如果匹配,则作为一个分词结果放入结果字符串中,并记录下此时的字符串数组下标,从剩余部分再截取k个字符开始新一轮的匹配;如果该轮匹配失败,则从截取的k个字符中去掉最后一个,再去字典里查找匹配着k-1个,如此循环下去,知道出现匹配或者只剩一个字符的情况。该匹配算法的流程图如图1所示。
3.4 字典查找效率的提高
由于系统采用的藏文字典条目数量约为13万个,处理数目较大,因此词条的组织和词典库结构的设计是否合理是影响文本分词效率和信息查全及查准率的一个重要因素。如果每次匹配均每次匹配都遍历字典库里的所有词条,那么将会很耗费时间。经过分析,发现我们可以把字典里的词条按照字符字符数量以二进制的方式存储在文件里,这样对于一定字符数的字符我们就可以只用匹配一个子词典。例如,“我们”在录入时占用了两个字符,那么我们匹配的时候就可以只在字符数是二的子字典里进行匹配。这样,就减少了“我们”跟“面包车”、“电子词典”等四个五个字符串的匹配,提高了系统的效率。并且,用文本文件储存占磁盘空间大,读取速度比较慢;二进制文件占磁盘空间小,读取速度快。而且因为已经有了总词典,所以我们没有必要知道二进制词典里的内容,只需要在总词典里进行对比。从这个方面我们可以提高系统的运行效率。
3.5 结果输出
在得到某文档的初始分词结果后,系统对该结果结果进行直观的输出,放在程序的TextArea中以供用户查看。其中,词与词之间采用了“(空格)|(空格)”的间隔符隔开,原因是藏文的书写密集,如果不加两个空格,用户很难直观的看出分词效果。同时,系统还在后台导出了一个以txt问格式的文本,作为其他程序的接口。
综上所述,分词是理解自然语言的第一步,也是非常重要的一步,在此基础上才能划分短语、抽取概念以及分析主题,以至自然语言理解,最终实现智能化。本文通过对藏语语料的统计分析和藏语词的分布特点、语法功能的研究,设计开发了基于词典库的藏文自动分词系统,从处理过程来看,把自动分词可以看作是用计算机自动识别文本字符流中的词并在词与词之间加入明显切分标记X的过程。从应用需求来看,自动分词的主要目的是确定自然语言处理的基本分析单位,为进一步开展自动分析做好前期准备工作。
参考文献
[1]关白.信息处理用藏文分词单位研究[N].中文信息学报,2010,24(5):124-128.
[2]祁坤钰.基于国际标准编码系统的藏文分词词典机制研究[J].西北民族大学学报(自然科学版),2010,31(12):29-30.
[3]吴旭东.正向最大匹配分词算法的分析与改进[J].信息科技,2011,31(10):164-165.
[4]才智杰,才让卓玛.藏文自动分词系统的设计[J].计算机工程与科学,2011,33(5):151-152.
[5]向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006,26(8):26-28.
作者简介
格桑多吉(1972-),男,自治区亚东县人。现为大学藏文信息技术研究中心副教授、主任。研究方向为藏文信息处理。
作者单位
1.大学藏文信息技术研究中心 自治区拉萨市 850000
2.西南交通大学信息科学与技术学院 四川省成都市 610031