开篇:润墨网以专业的文秘视角,为您筛选了一篇LORANGE:一种机器翻译评测自动元评价方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘要:本文提出一种lorange (Limited ORANGE)自动元评价方法,在语料资源受限的情况下,对目前主流的基于n元语法的BLEUS、ROUGE-L和ROUGE-S的性能进行评价。这种自动元评价方法弥补了传统人工元评价方法的主观性强、代价高昂、不稳定、评测周期长等缺点,有利于机器翻译系统的参数优化调整和缩短系统研发周期。在俄汉双语句对齐的数据集上,采用这种方法对BLEUS、ROUGE-L、ROUGE-S进行性能评估,实验结果显示,ROUGE-L性能最优,ROUGE-S次之,BLEUS性能最差;并且通过与人工元评价结果进行一致性检验,LORANGE自动元评价方法的有效性与可行性得以验证。
关键词:LORANGE;BLEUS;ROUGE-L;ROUGE-S;自动元评价
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)05-0138-05
Abstract: This paper addressed an automatic meta-evaluation method of machine translation (MT) evaluation based on ORANGE-Limited ORANGE. It was adopted as the resources were limited, to evaluate the performances of the three metrics- BLEUS, ROUGE-L and ROUGE-S, which were based on n-gram and widely used in the domain of MT evaluation. Compared with the traditional method operated by human, this method can evaluate metrics automatically without extra human involvement other than using a set of reference translations. It only needed the average rank of the reference, and it was not influenced by the subjective factors. This method costed less and expended less time than the traditional one, which would have advantages to the parameter tuning and shortening system period. In this paper, we use this automatic meta-evaluation method to evaluate BLEUS, ROUGE-L and ROUGE-S on the Russian-Chinese dataset. The result shows that the ROUGE-L's performance is the best and that of BLEUS' is the worst, the ROUGE-S is worse than ROUGE-L but better than BLEUS. Also, the consistance and effectiveness of Limited ORANGE are verified through consistency test with human meta-evaluation results.
Key words: LORANGE; BLEUS; ROUGE-L; ROUGE-S; Automatic Meta-evaluation
1 概述
C器翻译系统评测在机器翻译领域起着重要的作用。它能够对系统性能进行评估,使系统开发者及时得知系统存在的问题并加以改进;同时可以为用户提供系统译文质量评估的依据。国家语言文字工作委员会的机器翻译系统评测规范[1]指出,机器翻译评测一般分为人工评测和自动评测两类。其中,人工评测主要由同时精通源语言和目标语言的专家主观地对系统输出译文的忠实度和流利度进行打分;主观性强,受外界因素影响比较大,代价高昂,评判周期长,无法适应机器翻译系统修改及参数调整的进度,无形中延长了系统研发周期,难以向研发者和用户提供高效的评测结果。于是,研究者更倾向于使用自动评测方法对系统译文进行量化评估。因此自动评测成为机器翻译领域的研究热点之一。
众多的自动评测方法性能孰优孰劣,如何进行评判也是一个值得研究的问题。比如BLEU只能在语料库级进行评测,平滑后的BLEU(BLEUS)可以应用于句子级评测;鉴于基于连续n元语法的BLEU没有考虑不连续子串之间的匹配,ROUGE基于不连续子串进行候选译文和参考译文匹配等等;这些自动评测方法的好坏,需要有一个统一的标准来衡量,即机器翻译评测元评价。
机器翻译评测元评价,即是运用一定的方法检测哪个机器翻译评测方法性能更优,主要分为人工元评价和自动元评价两类。人工元评价,就是通过对自动评测分数与人工评测的忠实度和流利度分数求得相关系数;花销大、主观因素导致结果经常不一致、忠实度和流利度测评很难达到一致;系数越大,评测方法的性能越好。自动元评价,就是采用计算机通过机械、自动的方法实现对评测方法的评价;这种方法客观、便捷、容易实现,不会受外界因素的影响而导致评价结果出现偏差。人工元评价由于人工的介入而存在许多不足,难以适应海量数据的信息处理需求,为此探究一种通用、客观的自动元评价方法非常重要。
本文基于ORANGE[2],提出一种LORANGE (Limited ORANGE)自动元评价方法,在语料受限的情况下,对目前主流的基于n元语法的三个自动评测方法BLEUS、ROUGE-L和ROUGE-S的性能进行自动评价。为与人工元评价保持一致性,拟采用译文的忠实度分数、流利度分数以及译文相似度表征译文信息,对候选译文和参考译文进行排序打分,来实现对自动评测方法性能的评估。整个过程除了人工提前翻译好的参考译文无需额外的人工介入,而且可以很好地应用于句子级评价。
2 几种主流的自动评测方法简介
2.1平滑BLEU
BLEU自2002年由Papineni等人[3]提出以来,被广泛应用到各种评测活动中。BLEU通过计算系统候选译文与人工参考译文中连续n元语法的匹配个数,求得n元语法的准确率,并将各元语法的准确率通过几何平均值将其融合,同时对比参考译文短的候选译文赋予定量的惩罚,如式(1)所示。
2.2 ROUGE-L
BLEU在对候选译文和参考译文之间的连续n元子串进行匹配时,并不能很好地描述远距离不连续词语之间的关系。为此,2004年,Lin提出基于不连续n元语法的ROUGE[4]方法,用以描述远距离的一元词汇之间的关系,比如ROUGE-L、ROUGE-S。
ROUGE-L基于最长公共子串(Longest Common Substring, LCS)计算候选译文和参考译文之间的相似度,同时考虑了准确率和召回率,并采用基于LCS的F-测度的方法来测量参考译文X(长度为m)和候选译文Y(长度为n)的相似度,如式(3)(4)(5)所示[5]。
2.3 ROUGE-S
ROUGE-L只记录了最长公共子串的长度,无法区分不同空间位置的最长公共子串,而且]有记录短于最长公共子串长度的相匹配的子串,对译文相似度的描述略欠妥当。ROUGE-S基于不连续二元语法(Skip-bigram)来计算候选译文和参考译文的相似度,允许有任意间隔的顺序二元语法进行匹配,类似于BLEU中的二元语法,但包含了不连续子串,因此ROUGE-S可以描述远距离信息。比如“我爱中国”分词后变为“我/爱/中国”,有C(3,2)=3个Skip-bigram (其中C为组合函数),分别为:“我/爱”、“我/中国”、“爱/中国”。假设参考译文X长度为m,候选译文Y长度为n,每个长度为len(针对汉语而言,译文分词后词语的个数)的句子有C(len,2)个Skip-bigram,则ROUGE-S的计算如式(6)(7)(8)所示[5]。
3 LORANGE自动元评价研究
3.1 LORANGE
由于某些针对特定任务标注的数据或者可以应用到受限领域的数据依然比较匮乏,统计机器翻译模型的训练仍然面临着严重的“数据稀疏”问题[6]。针对人工元评价方法的主观性强、周期长、一致性较弱等问题,在ORANGE[2]的基础上,本文提出LORANGE (Limited ORANGE)方法,在资源受限的情况下,对自动评测方法的性能进行评价。这种方法因为其客观、简洁、方便实现而使得自动元评价成为可能,缩减了人力资源的付出。
所谓LORANGE自动元评价,就是在语料资源比较有限,训练集的规模不足够大的情况下,输出n-best候选译文列表可读性比较差,从而利用有限的语料资源,借助网络在线翻译系统辅助实现对自动评测方法性能的自动评价。本文拟采用网络上比较成熟的俄汉在线翻译系统的输出汉语译文作为实验所需的候选译文列表,俄汉对齐语料库中的汉语句子作为参考译文,然后通过对参考译文和候选译文进行特征选取并打分,得到参考译文在译文列表中的排序,以此来计算LORANGE得分。
给定一个源语言句子S,选择目前国际国内主流的、性能比较稳定的4个在线翻译系统――谷歌、百度、必应、有道,辅助实现机器翻译评测元评价研究。本文基于俄汉双语新闻句对齐语料库,利用上述4个在线系统进行俄汉翻译,得到4个在线翻译系统对应的汉语输出译文形成候选译文,并将经过人工句对齐之后的汉语译文作为参考译文,以此构建LORANGE元评价方法的实验语料库。通过4个候选译文列表和对应的参考译文,对每个待评价的自动评测方法进行如下计算:
(1) 合理选择译文特征,计算候选译文列表和参考译文的自动分数;
(2) 根据译文得分对参考译文和候选译文进行排序,并且计算参考译文的平均排序;
3.2 译文排序关键技术研究
通过上述分析,最主要的问题是如何对译文进行综合排序?对于同一个源语言句子的译文可以用一组特征来表示,每一个特征描述译文的一个属性,特征权重表示该特征对译文的相对重要程度。任何与该译文相关的信息都可以编码为一个特征。为了与传统人工元评价保持一致性,本文拟选取译文忠实度分数ade、译文流利度分数flu以及基于待评价自动评测方法的译文相似度sim等3个特征来表征译文信息。这些特征必须借助语言学知识来获得。
统计机器翻译的原理就是通过翻译模型和语言模型建模、训练然后解码,如图1所示,在所有可能的目标语言T中寻找概率最大的句子作为源语言句子S的翻译结果[7]。根据贝叶斯公式,即为通过解码寻找一个最接近于真实的目标语言句子
3.2.1译文忠实度分数计算
通过上述分析,译文忠实度分数通过翻译模型概率来表示,即P(S|T),给定目标语言T的条件下源语言S的条件概率。概率值越高,译文的忠实度分值越高。本文采用Moses(摩西)系统对翻译模型进行训练,采用GIZA++词对齐工具来实现源语言与目标语言的词对齐。
由于实验语料来自4个不同在线俄汉翻译系统译文和人工参考译文,它们不同于来自同一个开源统计机器翻译系统的n-best候选译文列表,因此要想对实验中来自不同在线翻译系统的汉语译文和1个参考译文求得翻译模型的概率值,必须找到一个公共的“参考点”――本文选择Moses系统的1-best译文,并以此为基准,间接求得5个译文的忠实度分值。
3.2.2译文流利度分数计算
译文流利度通过语言模型概率P(T)来体现,它为每个给定目标语言的词语序列计算一个概率值,表示这个词语序列在目标语中被表达的可能性。目前应用最为广泛的是采用n元语法对语言模型建模,计算字符串W=w1,w2,…,wn的概率,如式(13)所示。
4 自动元评价方法性能分析
4.1 实验语料及环境
实验中,双语句子数据集采用某句库中包含新闻领域的52,892个俄汉双语对齐句对[8]。针对这些俄汉双语对齐语料,采用分层采样的方式将其分为训练集和测试集,其中测试集包括1,057个俄汉句对。同时在模型训练过程中引入俄汉词典共计247,075词条,优化所训练出的双语短语对齐模型。
本文选取目前主流的且俄汉翻译译文可读性较强的谷歌、百度、必应、有道等4个在线翻译系统对俄语句子进行俄汉在线翻译,得到其对应的汉语输出译文作为候选译文列表,俄汉双语对齐语料库中的人工对齐的汉语句子作为参考译文。
从图2中可以看出,ROUGE-L的LORANGE得分最低,为0.003112,ROUGE-S次之为0.003160,BLEUS最高,达到0.003234。根据上文分析可知,ORANGE分数越低,自动评测方法的性能越好,故可得到,ROUGE-L的评测性能最优,ROUGE-S性能次之,BLEUS性能最差。其主要原因在于,ROUGE-L在评测过程中,基于最长公共子串进行译文相似度比较,没有设定固定的n元语法的长度,匹配比较灵活,不拘泥于n元语法的长度而使得译文中匹配的n元语法数目受到限制;而ROUGE-S和BLEUS很好地体现了译文中不同阶n元语法的匹配情况,ROUGE-S融合了ROUGE-L和BLEUS的优点,既包括了BLEU的连续n元语法,又包括了ROUGE-L的不连续n元子串,在确保译文忠实度的情况下,捕捉了译文之间的远距离词语之间的关系,同时也确保了译文的流利度,其性能要优于BLEUS。
4.3 验结果一致性分析
为了验证LORANGE自动元评价方法的有效性与可行性,采用统一的标准对谷歌、百度、必应、有道4个在线翻译系统的俄汉在线翻译输出译文的忠实度和流利度进行人工打分。自动评测得分高的系统人工评测得分也高,这表明自动打分与人工打分有着较高的相关性,这是一个自动评测方法所期望得到的结果。
本文采用皮尔森相关系数rxy来计算自动评测方法与人工评测得分的相关性。对于包含变量自动打分x和人工打分y的测试集上的数据点为{(xi,yi)},则自动打分x和人工打分y之间的皮尔森相关系数为:
由此实验分析,横坐标表示基于不同自动评测方法的自动打分,纵坐标表示人工打分,ade表示人工忠实度分数,flu表示人工流利度分数,并分别对忠实度和流利度添加了线性趋势线,(1) BLEUS的忠实度和流利度的相关性都是三个评测方法中最差的。(2) ROUGE-L和ROUGE-S的流利度相关性基本相近,但是ROUGE-L的忠实度要优于ROUGE-S。(3) ROUGE-S的忠实度和流利度的相关性同样好。由此可以分析得出,ROUGE-L的性能要优于ROUGE-S和BLEUS,BLEUS性能最差,上述LORANGE自动元评价方法测得的实验结果与人工评价的结果是一致的。由此,LORANGE方法的一致性得以验证。但是同时也可以看到,人工评价涉及忠实度和流利度相关系数两项目标函数的最优化,其基于两个目标函数的综合评价结果与人的评分主观因素有很大关系,而LORANGE自动元评价方法的客观一致性使得机器翻译评测元评价可操作性得以完美体现,评判结果客观、清晰,能够更加有力、快速地验证评测方法性能的改善情况,能够在某些特定任务领域或者语料资源不足够丰富的语种研究上,增加自动化成分,解放部分人力资源。
5 结束语
本文主要基于ORANGE提出一种资源受限的LORANGE自动元评价方法,对自动评测方法的性能进行评价。这种方法除了需要人工提前准备好的参考译文之外,不需要额外的人工介入,通过参考译文的平均排序来实现对不同评测方法的自动元评价,参考译文排序靠前的评测方法性能优于参考译文排序靠后的评测方法。相比于传统的人工元评价方法,大大缩短了评价时间,节约了能源。且在评测过程中,为了与传统人工评测相一致,选取译文的忠实度分数、流利度分数与基于待评测指标的译文相似度三个特征来表征译文,从而进行打分。并将实验结果与人工元评价结果进行了一致性检验,LORANGE自动元评价方法的有效性得以验证。
后期工作中将同义词扩展等语义分析引入自动评测方法中,而且表征译文的三个特征的选取与计算还将进一步优化,从而将语义分析引入LORANGE自动元评价过程中。
参考文献:
[1] 机器翻译系统评测规范[S]. 中华人民共和国教育部国家语言文字工作委员会. 2006.
[2] Lin C. Y., Och F. J.. ORANGE: A Method for Evaluating Automatic Evaluation Metrics for Machine Translation [C]. In Proceedings of the International Committee on Computational Linguistics 2004 (COLING-2004), 2004.
[3] Papinen K., Roukos S., Ward T., et al. BLEU: a method for automatic evaluation of machine translation [C]. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics 2003 (ACL 2003), 2002: 311-318.
[4] Lin C. Y.. ROUGE: A Package for Automatic Evaluation of Summaries [C]. In Proceedings of Workshop on Text Summarization Branches Out, Post-Conference Workshop of Association for Computational Linguistics 2004 (ACL 2004), 2004.
[5] Lin C. Y., Och F. J.. Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics [C]. In Proceedings of Association for Computational Linguistics 2004 (ACL 2004), 2004.
[6] 张钹. 自然语言处理的计算模型[J]. 中文信息学报, 2007, 21(3): 3-7.
[7] 冯志伟. 自然语言处理的形式模型[M]. 合肥:中国科学技术大学出版社,2010.
[8] Du W, Liu W, Yu J, et al. Russian-Chinese Sentence-level Aligned News Corpus [C]. In Proceedings of the 18th Annual Conference of the European Association for Machine Translation (EAMT 2015), 2015: 213.