首页 > 范文大全 > 正文

一种用于词性标注的相关投票融合策略

开篇:润墨网以专业的文秘视角,为您筛选了一篇一种用于词性标注的相关投票融合策略范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

(信息工程大学,河南 郑州 450004)

摘 要:各种词性标注方法总是利用从某一侧面描述的语言学知识,当训练语料达到一定规模、训练模型完善到一定程度后,标注精度很难再有进一步的提高。本文在对TBED、DT、HMM和ME四种基于语料库的词性标注方法研究的基础上,提出了一种新的词性标注融合策略――相关投票法。从理论上分析了该方法的优越性,并与其他融合策略进行了对比实验。实验结果表明,应用融合策略可以更加全面地描述词性标注知识,从而更好地完成词性标注任务;在几种融合策略中,相关投票法是最优秀的,它使标注的平均错误率降低27.85%。

关键词:人工智能;自然语言处理;词性标注;融合策略;相关投票

中图分类号:TP391 文献标识码:A

1 引言

词性(Part of Speech,即POS)兼类是自然语言中普遍存在的歧义问题。据统计,Brown语料库中英语词汇兼类词词次占55.2%[1];一个13万词的汉语语料库中兼类词词次占23.6%[2]。然而,各种兼类词在特定的上下文中总是具有确定的词性。词性标注(POS Tagging)就是在给定词性分类标准下,根据上下文信息确定词汇正确词性的过程。词性标注的方法有很多种。早期基于规则的方法使用的词性标注规则是由语言学家根据语言规律进行人工书写完成的,这使得规则的编写不仅费时费力,而且容易出现规则冲突、规则不完备等问题[3,4],因而势必影响到标注正确率。针对人工编写规则带来的问题,近十多年来出现了很多新的词性标注方法[5~8],它们都是从真实语料中利用机器学习原理获取消除词性兼类歧义的语言学知识。根据词性标注知识描述方式不同,这些基于语料库的方法大致可以分为两类。一类是规则学习方法,即从真实语料中自动获取词性标注规则,如基于转换的错误驱动方法[5](Transform-based Error Driven,即TBED)、基于决策树方法[6](Decision Tree,即DT)等;另一类是统计方法,即用某种统计模型作为词性标注知识的描述方式,如隐马尔可夫模型方法[7](HiddenMarkov Model,即HMM)、最大熵方法[8](Maxi-\mum Entropy,即ME)等。每一种方法都是试图从不同侧面描述词性标注消歧知识,当某种模型完善到一定程度后,单纯地改进该方法通常很难达到提高标注正确率的目的。

本文在对TBED、DT、HMM和ME四种方法进行研究和实验的基础上,提出了一种有效的词性标注融合策略,即相关投票法。从理论上分析了该方法的优越性,并与简单投票法、加权投票法等融合策略进行了对比实验。结果表明,应用融合策略可以更加全面地描述词性标注知识,从而更好地完成词性标注任务;在几种融合策略中,相关投票法是最优秀的,它使标注的平均错误率降低27.85%。

2 相关投票融合

一般来说,单从一个侧面描述词性标注知识存在一定的局限性,表现在当训练语料达到一定规模、训练过程达到一定程度之后,标注精度很难再有进一步的提高,甚至有时还会降低,也就是说,当某一模型完善到一定程度后,再通过增加训练语料和训练量的办法来提高标注精度已无任何意义。融合多种模型、方法是进一步提高标注精度的一种途径。

2.1简单投票融合

一种最直接的融合多种方法的策略是简单投票法[9](Simple Voting),也称多数投票法(MajororityVoting)。如同投票选举一样,词性标注集(POSSet)中每一个标注都是被选举者,每一种词性标注方法就是一个选举者。投票规则是,每一选举者都为其确定的被选举者投上一票,而且仅此一票而已。最后,获票最多的被选举者胜出。

设M种词性标注方法构成的集合为MS={mi|i=1,2,…,M},词性标注集为TS={tj|j=1,2,

2.2加权投票融合

简单投票法假设各种词性标注方法对投票结果具有相同的重要性,这未免有些简单化。而事实是,各种方法总有好坏之分,人们有理由更相信标注正确率高的方法,即更偏重于标注正确率高的方法。我们把区分标注方法重要性的投票法称为加权投票法(Weighted Voting)。它在统计标注tj,的获票时考虑了标注方法的权值,即:

其中Weight(mi,tj)表示标注方法mi对标注tj,的权值。确定Weight(mi,ti)的值可以有多种方式。一种是不考虑具体标注ti,而直接用标注方法mi的标注正确率Pr(mi)作为权值,即Weight(mi,tj)=Pr(mi),我们称之为TolPrecision加权投票法。另一种是用标注方法mi对标注ti,的标注正确率Pr(tj/mi)作为权值,即Weight(mi,tj)=Pr(tjmi),我们称之为TagPrecision加权投票法。当然还可以选择其他与方法mi和标注tj,有关的值作为权值Weight(mi,tj)。

2.3 相关投票融合

不论是简单投票法还是加权投票法,对投票者来说都是背对背的,也就是相互独立地投票,而不关心其他投票者的投票。然而,如果采用面对面的投票方式,除了坚信自己的投票结果外,还参考其他投票者的投票,反省自身的投票,看是否应该更加坚信还是修正自己的投票结果。这就是我们提出的相关投票法(Correlation Voting)。

相关投票法具有两种反省因素。一是对自身的投票结果更加坚信的积极因素。比如,对于某种标注方法mi,在当前标注tj,正确时误判为其他标注tk(其他方法的结果)的概率Pe(tk/tjmi)越大,就应该更加坚信自己的投票结果tj;另一种是对自身的投