首页 > 范文大全 > 正文

融合词义信息的中文短语句法分析

开篇:润墨网以专业的文秘视角,为您筛选了一篇融合词义信息的中文短语句法分析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:针对目前融合词义信息的短语句法分析过程中,多义词词义消歧较差的问题,提出一种基于词性消歧的中文短语句法分析方法。首先构建具有词性信息的同义词字典;然后对训练集和测试集中的词语进行词义替换,利用多义词的词性区分其不同的词义。在宾州中文树库(CTB)的实验结果表明,正确率为80.30%,召回率为78.12%,F值为79.19%。相对于没有进行词性消歧的系统,该方法有效提高了短语句法分析的性能。

关键词:汉语句法分析;同义词词林;知网;一词多义;词义消歧

0 引言

句法分析是自然语言处理的核心技术,是对语言深层理解的基石。句法分析的任务是自动识别出句子所包含的句法单位以及句法单位之间的关系,一般以句法树形式表示句法分析的结果。句法分析结果的精确与否,直接决定诸如统计机器翻译[1-2]、信息检索[3]、语音识别[4]这些自然语言应用系统的最终性能。随着信息时代的到来以及互联网的广泛应用,人们对句法分析的需求日益迫切,因而对句法分析的研究具有重要意义。

到目前为止,自然语言处理已经有60年的历史,句法分析一直是阻碍自然语言处理发展前进的巨大障碍,句法结构歧义是其中的难点之一[5-6]。实验和语言直觉表明,词义信息能有效消除句法结构歧义,提高句法分析的性能[7]。例如在训练树库中出现“大师”,而在测试中出现“学者”,对句法分析器而言,其并不能正确理解“大师”和“学者”的词义,从而在测试集上不能给出正确的句法分析结果。

本文阐述了如何在句法分析过程中,融合词义类信息以提高句法分析的性能,着重研究了在融合词义类信息过程中,消除多义词的词义歧义问题。

1 相关研究

提升句法分析的效果,除了在统计模型中融入更多上下文信息外[8-10],研究者尝试将词义信息融入句法分析任务中。Xiong等[11]将知网(HowNet)和同义词词林(TongYiCi CiLin)的第一词义和上位词信息融入到生成模型的句法分析器中,实验结果表明融入第一词义和上位词信息后,句法分析的性能有了很大的提高。Fujita等[12]将映射到上层知识本体中不同层次的词义信息融入一个判别式句法选择模型中,在此过程中使用GoldStandard方法进行词义消歧;结果显示通过融合词义信息这一措施就可以使句法分析性能获得提高。Agirre等[7]将树库中的词汇信息用WordNet中的词义进行替换,例如“小刀”和“剪刀”都替换为“工具”。实验分别使用了GoldStandard、第一词义和词义自动排名三种方法进行词义消歧;他的实验成功降低了句法分析器的错误率。Dowding等[13]和Hektoen[14]没有进行词义消歧,而是直接将词义信息融入句法分析中;实验显示句法分析器性能有所提升。

在融合词义信息的过程中,词义歧义问题处理的好与坏,将直接影响句法分析的结果。目前进行词义消歧的方法主要有:

1)手工标注的方法。这种方法可以达到很高的正确率,但是由于目前的语料十分庞大,如果采用这种方法,将耗费大量的人力和物力资源。

2)采用第一语义[7,11],即如果出现多义词,则选择第一词义作为该词的词义。这种方法有明显的局限性,正确率不高。

3)词义消歧方法[15]。词义消歧一般要引入一个外部的语料库以提高词义消歧效果。该方法会引入额外的噪声,并且系统实现繁杂,效率不高。

为了解决上述方法的缺陷,本文提出了用知网词性信息消除词义歧义的一种新方法。该方法的主要思想是在词义映射过程中,根据多义词的词性选择不同的词义编码。此方法由机器自动完成,无需人工干预,节省了人力物力。根据词性进行消歧后,能在一定程度上克服单纯使用第一词义的缺点,不仅能提升句法分析性能,而且系统实现简单,适合融入本身就很复杂的句法分析系统中。

3 融合词义方法的句法分析

正如在引言部分提出的例子,句法分析器并不能理解“大师”和“学者”其实具有相近的词义,从而造成句法分析的错误。为了解决这个问题,本文将每个词语的词义类信息提供给句法分析器,即将词语替换为其词义编码。例如“大师”和“学者”都替换为词义类“专家”。通过简单的词义替换,就可以在不改变原句法分析器的基础上,将词义信息融合到句法分析过程中。但是在融合词义过程中本文面临两个问题:1)词语与其词义类信息之间的关系应该如何表示;2)对于多义词,如何正确选择词义类信息。

有多种方法可以表示词语和词义之间的关系,本文使用“词语―词义”映射的方法解决第1)个问题,即将词语映射到其对应的词义类上。本文使用哈尔滨工业大学的《同义词词林(扩展版)》作为“词语―词义”映射的词义资源。第2)个问题即词义的消歧问题,本文使用三种方法从不同的粒度上进行词义的消歧处理,并提出了一种新的词义消歧方法。

3.1 粗粒度词义消歧

本节主要介绍两种粗粒度的词义消歧方法:单义词词义编码映射和多义词词义编码融合。

1)单义词词义映射。

利用同义词词林中词语和词义编码的映射,将宾州中文树库(Penn Chinese TreeBank,CTB)上的词语替换为对应的词义编码。如果是多义词,不进行替换;如果是单义词,则进行词义编码替换。这种方法对树库中的多义词的词义不进行消歧处理。

2)词义编码融合消歧。

同义词词林中,词语存在一个或者多个词义编码。根据这个特点,本文对同义词词林中的词汇作了如下定义:

a)多义词。一个词语对应多个词义编码。例如“东西”对应三个词义编码――“Aa01A06=,Ba01A01=,Da28A01=”。

b)单义词。一个词语对应一个词义编码。例如:词语“外星人”只有一个词义编码“Ad02F01@”。

对于多义词,该方法将多义词的词义编码合并。例如上文中的多义词“东西”的编码为“Ba01A01=Da28A01=Aa01A06=”,即利用合并后的词义编码替换树库中的多义词。这种方法是一种很粗糙的消歧策略。

3.2 细粒度词义消歧

细粒度词义消歧是指对多义词能准确地识别出其不同词义,并根据不同词义将其映射到不同的词义编码上。目前在融合词义句法分析过程中,通常采用词义消歧方法对多义词进行消歧。这种方法采用复杂的机器学习模型,复杂度很高。而句法分析是一个极为复杂的任务[8],如果再采用高复杂度的词义消歧方法,将大幅降低句法分析的速度,限制其在实际中的应用。为了降低排歧的复杂度,并且更进一步在细粒度上进行词义消歧,本文提出了基于词性的词义消歧方法。该方法的思想是:相同的词语如果其词性不同,那么其词义一般也不相同。根据这一思想,获取同义词词林中多义词的不同词性,并将不同词性下的词与词义编码对应,最终实现词义消歧效果提升。该方法存在2个难点:1)确定同义词词林中词语的词性;2)将树库中的词性与同义词词林中的词性进行映射。本文通过选用HowNet词性信息对同义词词林进行扩展,并构建知网词性和树库词性映射关系表解决上述问题。

1)同义词词林词性扩展。

知网[17]是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中的一个词汇表文件如表3所示。

如图1所示,在宾州中文树库中动/名歧义和副词歧义所占的比例接近80%,所以在构建词性映射时要充分考虑这些词性。在其他词性歧义中主要包括的词性有并列连词、介词和代词。

宾州中文树库中各个词性所占百分比如图2所示。

由图2可以看出,容易出现歧义的词性所占的比例是相当大的。因此本文基于以下原则构建知网与树库的词性映射表:

1)分布较集中的多义词词性,需被列入词性映射表中,如名词、动词;

2)对消歧无影响或影响较小的词性不被列入映射表中,例如词性标点(PU);

3)宾州中文树库中出现频数多的词性需被列入映射表中。

根据以上原则,构建的完整词性映射关系如表4,对于不在表中的词性,则不进行映射处理。

不在词性映射表中的词性例如体态词(了)、小品词(吗)、限定词等,这些词性所对应的词全部或者大多数都是单义词,所以对其直接进行语义替换。

通过构建资源,可以很好地解决根据词性进行词义消歧中的两个问题。融合词义句法分析过程中,在对词语进行词义替换时,根据多义词的词性映射到不同的词义,提高了词义消歧效果,为提高句法分析的性能打下坚实基础。

4 实验结果及分析

本文采用宾州中文树库5.1作为实验数据集,根据研究惯例[18],从第301篇到第325篇之间的25篇作为调试集,从第271篇到300篇之间的30篇文章作为测试集,其余的835篇作为训练集。使用BerkeleyParser[19]作为句法分析器,融合词义但不进行词性消歧的系统作为baseline。

4.1 评测指标

本文采用PARSEVAL[20]评估,在PARSEVALA评测方法中主要有3个基本的评测指标:正确率(Pecision,P),召回率(Recall,R),F值(Fmeasure),其算法如下:

P=正确标记的短语个数标记出的短语个数×100%(1)

R=正确标记的短语个数原树库标记的短语个数×100%(2)

F=P×R×(1+β2)R+P×β2×100%(3)

式(3)中的β2是正确率和召回率的权衡因子,本文中,β2=1,此时F值也称为F-1值。

4.2 实验结果及分析

CTB上各系统的正确率、召回率及F值分别如表5、6所示。表5、6中,S&M表示句法分析器学习文法规则时分裂合并的次数。随着分裂合并次数的增加,句法分析性能逐渐增强,但是随之而来的是训练时间的增加,所以本文选择分裂合并4、5、6次分别做实验。

从实验1和实验2结果可以看出,单纯地融合词义但不进行词义消歧,句法分析的效果有所提升,但是提升不大。分析原因如下:融合词义后,词语由其对应的词义进行了替换,句法分析器在一定程度上能够识别出具有相近词义的词语。例如“大师”和“学者”,但是没有对多义词进行词义消歧,所以句法分析器的识别效果提升不大。实验3将多义词的词义编码融合在一起后,在一定程度上消除了词义歧义,相比于实验1和实验2,其效果有了进一步的提升,但是词义编码融合是一种很粗糙的词义消歧方法,不能完全地消除词义的歧义,所以句法分析的性能提升不明显。从实验4结果可以看出,融合词义过程中根据词性消除词义歧义以后,句法分析的效果有了很大的提升。分析原因如下:实验4在细粒度上进行词义消歧后,句法分析器能够进一步识别出多义词,使得多义词词义编码的概率分布更趋于合理,从而正确识别出短语结构,提高句法分析的性能。各个方法的性能如图3所示。

句法分析是一项很复杂的任务,应该从多个维度思考并解决问题。以上两类歧义是否可以从更深一层的语义或者其依存关系角度进行解决,这也是笔者目前所努力的方向。

6 结语

在融合词义信息的句法分析过程中,本文提出了利用词性进行词义消歧的方法。该方法扩展同义词词林的词性,在词义融合过程中,根据词性选择不同的词义。从实验结果上来看,利用该方法进行词义消歧后大大地提升了句法分析系统的性能,分析出了正确的句法分析树,证明了此方法的有效性,值得深入研究。

本文的实验都是在中文树库上进行的,但理论上本文的方法并不局限于中文,这需要将来进一步的验证。另外对于词性相同的多义词,本文采用第一语义的消歧方法,该方法尚不能十分准确地消除词义歧义。如果能进一步识别出词性相同多义词的不同词性,那么句法分析的性能可能会进一步提高,这需要在将来的工作中进行深入的研究。

参考文献:

[1]LIU Q. Syntaxbased statistical machine translation models and approaches [J]. Journal of Chinese Information Processing, 2011, 25(6): 63-71.(刘群.基于句法的统计机器翻译模型与方法[J].中文信息学报,2011,25(6):63-71.)

[2]MELAMED I D. Statistical machine translation by parsing [C]// Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2004: 653-660.

[3]WANG K, MING Z, CHUA T S, et al. A syntactic tree matching approach to finding similar questions in communitybased QA services [C]// Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2009: 187-194.

[4]COLLINS M, ROARK B, SARACLAR M, et al. Discriminative syntactic language modeling for speech recognition [C]// Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2005: 507-514.

[5]LIU T, MA J. The theory and method of Chinese automatic syntactic analysis [J]. Contemporary Linguistics, 2009, 11(2): 100-112.(刘挺,马金山.汉语自动句法分析的理论与方法[J].当代语言学,2009,11(2):100-112.)

[6]LIU Q. A survey of Chinese lexical analysis and parsing technology [C]// Proceedings of the First Student Computing Seminar Conference on Linguistics. Beijing: Peking University, 2002: 32-37.(刘群.汉语词法分析和句法分析技术综述 [C]// 第一届学生计算语言学研讨会专题讲座.北京:北京大学,2002:32-37.)

[7]AGIRRE E, BALDWIN T, MARTNEZ D. Improving parsing and PP attachment performance with sense information [C]// Proceedings of the 46nd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2008: 317-325.

[8]WU W, ZHOU J, QU W. A survey of syntactic parsing based on statistical learning [J]. Journal of Chinese Information Processing, 2013, 27(3): 9-19.(吴伟成,周俊生,曲维光.基于统计学习模型的句法分析方法综述[J].中文信息学报,2013,27(3):9-19.)

[9]CHEN G, LUO S, CHEN K, et al. Method for layered Chinese parsing based on subsidiary context and lexical information [J]. Journal of Chinese Information Processing, 2012, 26(1): 9-15.(陈功,罗森林,陈开江,等.结合结构下文及词汇信息的汉语句法分析方法[J].中文信息学报,2012,26(1):9-15.)

[10]ZHENG W. Research on Chinese parsing [J]. Information Technology, 2012(7):72-74.(郑伟发.汉语句法分析研究综述[J].信息技术,2012(7):72-74.)

[11]XIONG D, LI S, LIU Q, et al. Parsing the penn Chinese treebank with semantic knowledge [C]// IJCNLP05: Proceedings of the Second International Joint Conference on Natural Language Processing. Berlin: SpringerVerlag, 2005: 70-81.

[12]FUJITA S, BOND F, OEPEN S, et al. Exploiting semantic information for HPSG parse selection [J]. Research on Language and Computation, 2010, 8(1): 1-22.