首页 > 范文大全 > 正文

词义标注语料库建设综述

开篇:润墨网以专业的文秘视角,为您筛选了一篇词义标注语料库建设综述范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。

关键词:计算机应用;中文信息处理;词义消歧;词义标注语料库;平行语料库;bootstrappmg

中图分类号;TP391 文献标识码:A

1 概述

词义消歧(Word Sense Disambiguation,WSD)长期以来一直是自然语言处理的热点难题,在机器翻译、信息检索等领域均有重要的应用价值。而词义标注语料库的建设对WSD研究有着重要的意义:Ng指出,WSD的中心任务是建设一个大规模的词义标注语料库来训练有指导的机器学习模型。Veronis认为,没有大规模的词义标注语料库,WSD研究不会有本质的进步。

词义标注语料库是指,根据某个词典对多义词各个义项的定义,在真实语料上标注多义词的正确义项。理想中的词义标注语料库应该具有规模大、覆盖广和准确度高等特点。语料的规模是指已经标注所有多义词的出现总次数(token),所选语料库本身的规模也有一定的参考价值。语料的覆盖是指标注的单词词形(word type)的个数,也即词典中列举的多义词被标注的比例或个数。标注的质量通常用标注一致程度(Inter Annotator Agreement,IAA)来衡量。IAA的简单计算如下:

/AA=A/N (1)

其中N是该词已标注的总次数;A是各个标注者(通常是两个)相互认同的次数。这样计算的缺点是没有考虑到不同标注者偶然一致的情况。根据Kappa统计量来计算的k值定义如下:

其中M是目标词w的义项个数;Cj是两个标注者标注为义项j的次数之和。通常认为k值超过80%就是高质量的标注。

另外,词典的选择也是衡量词义标注语料库质量的一个重要指标。本文将从词义标注语料库建设的时间、机构、词典、语料库来源、标注方法、标注规模和质量等方面介绍目前已建成和正在建设的词义标注语料库。

2 人工构建的词义标注语料库

采用人工方法进行大规模词义标注语料库建设是目前通行的方法。本部分重点介绍英文和中文的词义标注语料库,对其他语种仅做简单介绍。

2.1 英语词义标注语料库

2.1.1 Semcor语料库

该语料库由普林斯顿大学于1993年由Miller负责完成。所用语义标注体系是WordNet1.6。而WordNet也正是由其负责完成的。在WordNet中,用同义词集合(Synset)来表示概念。一个多义词,将在多个不同的Synset中出现。根据WordNet对义项的区分在完成词性标注后的Brown语料库上进行标注。共标注词次(token)超过200 000个。分布于Brown语料库中的352个文件,其中186个文件(共359732词次)的所有实词(名词、动词、形容词和副词)全部被标注(192 639词次)。另外的166个文件(316 814词次),只标注了其中的动词(41497词次)。该语料库可以免费下载,并提供了相应的查询工具,但是并未见到关于IAA的报告。

该语料库是目前最大的英语词义标注语料库。尽管如此,Miller认为该语料库规模太小,仍不足以据此设计一个健壮的、高准确率的词义消歧系统。

在Semcor上开展的研究很多,几乎所有的针对所有词(all-words)的英文WSD研究都会基于该语料进行。

2.1.2 DSO语料库

词义标注(Defence Science Organisation,DSO)语料库由新加坡国立大学于1996年由Ng负责完成。所用词典是WordNet1.5,语料来自100万词Brown语料库和250万词华尔街时报(WSJ)。由该大学12个语言学专业的本科生,用一年时间标注完成。覆盖英语中最常见且歧义性最大的191个词(其中名词121个,平均7.8个义项;动词70个,平均12个义项)。这191个词各覆盖所有多义名词和动词出现的20%。

共计标注192 800词次(分别是Brown语料库的50个文件共7 119词次;WSJ的6个文件共14 139词次)。其中名词113000词次,动词79 800词次。每个多义词最多达1500个例句。其负责人估计标注的错误率大约在10~20%。随机抽取和Semcor中相同的5 317词次,两者的标注相同率为57%。随机选择30 315句,用Kappa统计量得到的k值是57%。该语料库已经加入LDC(编号:LDC97T12)。

基于该语料库的研究表明,这191个多义词,都不符合“一文一义”的假设。另外,在包含多义词出现超过2次的文件中,有39%的文件不符合这个规律。本文认为,这和高频、歧义性大的选词策略密切相关。

2.1.3 SENSEVAL-1语料库

1998年在英国的Sussex大学举办了首次词义消歧国际评测(SENSEVAL-I)。该评测由ACL的SIGLEX负责。其英语语料是从牛津大学于1993年建成的HECTOR语料库中抽取部分语料组成的。抽取后用HECTOR词典重新标注,标注者均为词典编纂专家。选择35个多义词,涉及名词、动词、形容词和5个词性不确定的词。标注的总词次为8 448个。

作为国际上首次开展的词义消歧评测(2007年更名为SemEval-2007),该语料的意义在于提供了公开评测数据,并且可以免费下载。标注者把HECTOR中的义项标注映射到WordNet且标注质量较高(k值超过80%),在此后的研究中多次使用。自此以后的历届评测中,绝大部分的评测语料都可以免费下载,极大地推动了词义消歧相关研究。

2.1.4 SENSEVAL-2语料库

Kilgarriff组织了于2001年进行的第二次评测中的英语采样词任务。词典是WordNet1.7,语料选自BNC-2和Penn TreeBank。标注的方法是先由两个标注者进行平行标注,他们标注不一致的交给第三方审查,如果第三方同意其中某个初始标注者的标注则赋予该义项;否则再交给另一个人审查,直到有两个以上标注者意见统一为止(这种标注方法为绝大多数手工标注者采用)。共选取71个多义词(27个动词,15个形容词,29个名词),平均每个词7.8个义项。标注7957词次,IAA为85.5%。其中形容词的IAA是83.4%,名词的IAA是 86.3%。该任务共27支队伍参加,提交系统27个。需要注意的是,动词部分的语料是和“所有词”任务在一起的。基于其上的研究有文献[17,20]等。

Palmer负责组织英语所有词任务。所用词典是WordNet1.7。语料来自Penn TreeBank,共标注2 387个词次,其中动词554个、名词1067个、形容词465个、副词301个。比赛中不提供训练语料。共21支队伍参加,提交系统21个。与Semeor一样,几乎所有的进行所有词消歧研究的实验,都会用到该数据集。

2.1.5 SENSEVAL-3语料库

Mihalcea组织了2004年进行的第三次评测英语采样词任务。词典选择:名词和形容词义项来自WordNet1.7.1,动词义项根据WordSmyth确定。之所以这样做,是因为WordNet中动词的义项区分过细。选用的语料是BNC。为增大语料库规模,组织者在网上募集自愿者来进行词义标注。

所选多义词分别是20个名词,5个形容词和32个动词,共计57个,每词平均6.47个义项。共标注11804词次,其中7 860个作为训练样例,3 944个作为测试样例。语料的IAA是67.3%,根据Kappa统计量得到的A值分别是0.58(micro-K)和0.35(macro-K)。共27支队伍参加,提交系统47个。因标注质量并不高,后续相关研究并不多。

本次评测中的所有词语料,由宾州大学提供。所用词典是WordNet1.7.1。语料选自两篇华尔街时报和一个Brown语料库的文件,题材分别为社论、新闻报道和科幻文章,共计约5 000个单词。共标注2 212个词次。语料的IAA是72.5%(其中动词为67.8%,名词为74.9%,形容词为78.5%)。16支队伍参加,提交系统26个。相关研究见文献[13,23]。

2.2 汉语词义标注语料库

2.2.1 北京大学词义标注语料库

Wu详细描述了北京大学计算语言学研究所建设的词义标注语料库。所选语料是2000年1~3月和1998年1月1~10日的《人民日报》(共计642万字)。在词义标注前已经完成切词和词性标注。所用词典是北大计算语言学研究所研制的现代汉语语义词典(Chinese Semantic Dictionary,CSD)。该词典基于《现代汉语语法信息词典》开发,从词的组合关系出发,进行词义区分和描述。词典采用“属性一值”的描述方法,如表1所示。

义项标注由中文系的1名博士和1名博士生,1名计算语言学方向的博士生和1名有多年语料库标注经验的工作人员负责,已完成情况如表2所示。IAA为84.8%。目前标注工作仍在进行之中。

其中1998年1月1~10日的《人民日报》词义标注语料可以免费下载(http://WWW.icl.pku.edu.cn)。

该语料库将在北京大学正在研制的“综合性语言知识库”中扮演重要角色:把现有语言数据资源无缝整合,填补其各构成成分之间的“缝隙(gap)”。粗粒度的词义标注语料库以“词语”+“词类”+“同形”为轴连接了标注语料库和语义词典;细粒度的词义标注语料库以“词语”+“词类”+“同形”+“义项”为轴连接了标注语料库和语义词典。这就是以词义为主轴把标注语料库与词典知识库连接起来的基本构思。进一步还可以把中文概念词典(ChineseConcept Dictionary,CCD)集成进来。

2.2.2 台北“中研院”语料库

该语料库由台北“中研院”的黄居仁教授负责。语料选自台北“中研院”语料库。选择“中频”多义词,且词的义项在3~5个。截至2004年9月,历时3年共标注107 078词次,IAA接近92.6%。

另外,台北“中研院”、哈尔滨工业大学分别为SENSEVAL-2和SENSEVAL-3提供了中文评测语料,复旦、清华和山西大学等都进行过词义标注语料库建设,囿于篇幅,本文不多做介绍。

2.3 其他语种词义标注语料库

除上面介绍的英语和汉语词义标注语料库外,还有捷克语、罗马尼亚语、韩语、日语、土耳其语、巴斯克语、西班牙语等等。本文仅对日语语料库做简单介绍。EDR语料库由日本电子辞书研究院(Japan Electric Dictionary Research Institute,EDR)负责。语料全部是新闻报道,约200 000个日语句子。词义来源于EDR概念词典,对所有的实词(约20万)进行标注。没有看到标注总词次和标注一致率的报道。除此以外,还标注了语义角色。基于该语料库所做的研究见文献[28,29]等。

另一个日语词义标注语料库是NTT的Hino-ki。该语料库既标注了词义也标注了语义角色。所用的词典是NTT的日语语义词典Lexeed。该词典按照熟悉程度把日语单词分为7级,只选择熟悉程度大于等于5的词入选该词典,共计28 000个。对该词典的统计表明,越不熟悉的词越倾向于单义。需要说明的是这里的熟悉程度(familiarity)并不是使用频次,而是来自一个心理测试。

标注的语料有两方面的来源:一个是词典Lexeed中本身的定义和例句(定义和例句中所用的词也仅限于该词典中出现的词);一个是新闻(Mainichi)。标注前都作了词性标注。标注时,每5个人一组,共有3组。涉及多义词9 835个,平均每个词有2.88个义项。共标注818 814词次,其标注一致率IAA为78.7%。

最后对上面介绍的词义标注语料库,总结为表3。

表中学术影响部分,为本文根据语料库在目前WSD研究中被引用的情况、是否免费等因素所给出的个人评价。

3 自动构建词义标注语料库研究

人工建设一个大规模、高质量的词义标注语料库是一个耗时耗力的语言工程。一直以来,都有研究者尝试用自动或半自动的方法进行建设。本文主要介绍bootstrapping方法和基于双语对齐语料库所做的研究。

3.1 Bootstrapping方法

该方法的基本思想是,人工标注的语料作为种子,以此为基础,利用一个或多个监督分类器,自动地迭代扩大标注语料库。较早的研究是Yarowsky采用决策表分类器,利用“一文一义”的规则[LUl1,针对同形词(Homograph)进行词义消歧实验。

Mihalcea在多义(Polysemous)的层面上,利用互联网,基于bootstrapping的思想,设计一个生成算法。该生成算法由下面三步组成:

第一步:用人工标注的语料创建一个种子集合。包括以下人工标注语料:SemCor,从WordNet中提取的语料等。

第二步:用这些种子语料作为查询请求,搜索 互联网。获得包含这些请求的前N个网页。

第三步:对包含该查询的网页片段进行消歧。把消歧后的网页片段加入种子集合,返回第二步。

具体实现时,要求第一步中的种子语料满足以下限制:1)至少包含两个开放词类的单词;2)两个开放词类中至少一个已经标注义项;3)目标词是名词短语的一部分或者有动宾、主谓关系。例如,,对于多义名词“channel”,初始种子集合为(“fiber optic channel”、“river channel”、“channels in’the surface”、“water channel”、“channel of expression”、“calcium channel”、“sports channel”)。同时,要求第三步中,进行消歧的词应该和查询中已经标注词义的词具有以下关系之一:词形相同;同义关系;上下位或兄弟关系。如果只是为了针对某一个特定的词进行消歧,则只需要使用“词形相同”这一关系即可。

针对上面提到的“channel”的例子,利用相同的消歧程序和SENSEVAL-2的测试集合,用基于bootstrapping方法建成的标注语料库作为训练集合达到的性能,要优于利用SENSEVAL-2提供的训练数据达到的性能。

3.2 基于双语对齐语料的自动构建

究竟什么是“词义”,一个词应该有几个义项,这几个义项分别是什么,应该如何刻画等等,这些词汇语义学的问题在语言学界也没有一致意见。上面介绍的英语词义标注语料库绝大多数使用WordNet,但是WordNet被人诟病其义项区分的颗粒度太小,以至于人工标注时,标注者有时都不能达成一致。在自然语言处理的应用中,也不容易把握词义区分的颗粒度(WSD因此被批评为一个孤立的自然语言处理问题)。而一个词对齐(wordaligned)的双语平行语料库,就是一个词义标注语料库:不同的翻译对应着不同的“义项标注”。这样不仅避免了词义区分(word sense discrimination)的纷争,而且可以直接为机器翻译服务。文献[36]较早建议使用双语平行语料库来进行词义消歧研究。

Ng利用GIZA++对6个中英平行语料库进行词对齐。接下来,手工完成翻译对到目标语义项的映射(也可通过双语词典自动完成)。仍以“channel”为例,如果对应的中文翻译是“水渠”或者“排水渠”,则都对应到WordNet1.7的同一个Synset(描述为:“A passage for water”)。在SENSEVAL-2的29个名词上进行实验,义项个数由WordNet中的5.07个减少到3.52个。其中7个词变成了单义词,实际只有22个多义词。在消歧程序和测试集合不变的情况下,初步的实验结果表明对于绝大多数歧义词,用人工标注的训练集要好于双语对齐语料库的结果。Ng进一步分析认为领域相关和某些义项的训练语料过少(有些义项甚至在平行语料库中没有出现)是导致这一结果的两大原因。通过把训练语料和测试语料重新分组以消除领域因素的影响,两者的差距由0.189降至0.14。进一步去掉测试集在平行语料库中出现过少的语料后,两者的差距降至0.065。由此可见,词对齐的双语语料库可以作为建设词义标注语料库的一条有效途径。

该方法面临的主要问题是缺乏大规模的词对齐平行语料库。由此引起的问题是某些义项对应的翻译在对齐语料中根本没有出现。为缓解这一问题,文献[20]提出使用汉语单语语料库和一个汉一英双语词典来构建词义标注样例(注:这些样例只是和特定义项密切相关的实词的集合,并非真实语料)。另外,由于多个义项对应同一个翻译词,必将导致比单语消歧的粒度更粗,从而实验结果不具备可比性。进一步在大规模的Brown语料库上对800个常用多义名词进行实验。要求和SENSEVAL-2中采用完全相同的义项区分,对没有出现的翻译对,采用“加权替换”策略。结果表明,消歧准确率非常接近最好的系统(相差0.8%)。

Tufts同时利用了词聚类和多语言的WordNet(BalkaNet,EuroWordNet)在一部被译成6种语言的小说上进行实验。利用平行语料库进行WSD研究见文献[39,40]等。

双语对齐语料库造成多义词的义项减少,会给诸如信息检索等应用带来问题。比如“病毒”,在汉语中分别指“比病菌更小的病原体”和“有害的计算机程序”,而两种义项对应的英语翻译都是“virus”。这也是基于双语对齐语料库进行词义标注语料库建设面对的一个难题。

4 分析与思考

目前几乎所有的词义标注语料库都是采用人工标注。尽管已经开展了自动或半自动标注方法的研究,但由于各种原因,研究成果并不尽如人意。以下针对词义标注语料库建设和应用中存在的问题,做简单讨论。

4.1 语料库规模小

采用人工标注进行词义标注语料库建设的缺点是耗时和一致性差,并且很难做到大规模。英语词义标注语料库中标注最多的Semcor语料库也仅有20万词次。如何引入半自动,甚至是全自动的方法来加速词义标注语料库的建设已经成为一个重要的研究课题。

在保证高标注准确率的前提下,让机器自动完成尽可能多的标注词次,是目前比较可行的半自动建设大规模词义标注语料库的途径。

Jin利用决策表具有消歧准确率高的优点,根据大量的无标注语料上的词聚类结果,进行决策表扩展。实验结果表明在几乎不降低准确率的前提下,召回率得到大幅度提高(从37%提高到57%)。这种方法可以有效地加速词义标注语料库的建设。

4.2 语料分布不平衡

除了标注规模小外,另外一个问题是语料分布不平衡。即便在一个规模较大的语料库中,也会有一些低频的多义词从未出现,或者是高频多义词的某些低频义项从未出现。在2.2.1节介绍的北京大学词义标注语料库中,其词典描述的794个多义名词中,仅4.85个(60.93%)在该语料库中出现。在这485个名词中,只以一个义项出现的有237个。只有248个(占31.16%)多义词在这三个月的《人民日报》中表现为真正的多义词。

为平衡标注语料库的分布,在不增加人工标注工作量的前提下,可采用主动学习(active learning)的方法,自动选择信息量更为丰富的或可能是低频义项的未标注语料提供给标注者。Dang和Chen分别在细粒度和粗粒度的英文语料上进行了实验,后者的结果更为乐观。

最后,标注的一致性校对仍然采用人工方法。如何利用机器学习来自动发现语料标注中的不一致,从而改善标注的质量,也是亟待解决的一个难题。目前这方面的研究尚未看到相关报道。

4.3 词义标注语料库的应用

由于目前的标注语料库规模较小,只能用于词义消歧算法的评测研究。利用已有词义标注语料库训练得到的标注器,尚未在应用系统中使用。但文献[1]利用在SENSEVAL3词义标注语料库上证明性能很高的消歧模型,集成到统计机器翻译系统Hiero的解码过程中。实验用的语料NIST MT2002的汉英语料,系统的BLEU-4值从原来的29.73提高到30.30。该词义消歧模块从输出额外的翻译词和纠正已有翻译中的错误两方面改善翻译结果。

如何更好地把WSD集成到相关的自然语言处理应用系统中,是WSD研究者亟待解决的难题。

5 结论

词义标注语料库作为词义消歧研究的基础性资源,已经经过了十几年的建设。无论英语、汉语还是日语等都有了自己的词义标注语料库。特别是从1998年以来开展的国际评测,大大促进了词义消歧研究和词义标注语料库建设。但是建设一个大规模、高质量的词义标注语料库是一个耗时耗力的语言工程。而传统的手工标注由于其固有的耗时、耗力和不一致等缺点,以致目前的词义标注语料库规模和质量都不足以训练得到一个可以应用的词义消歧系统。

探求半自动、甚至自动地建设大规模词义标注语料库的策略、模型、算法,显得极为迫切。本文认为,bootstrapping的方法是半自动建设大规模词义标注语料库的有效方法,而利用互联网资源对于获取多义词的低频义项出现具有现实意义。

最后,如何利用大量的无标注语料以改善消歧效果,虽然很早就开始研究,但并没有本质进展。随着半监督学习研究的深入,我们期望词义标注语料库建设的研究能从中受益。