首页 > 范文大全 > 正文

统计机器翻译中双语语料的过滤及词对齐的改进

开篇:润墨网以专业的文秘视角,为您筛选了一篇统计机器翻译中双语语料的过滤及词对齐的改进范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:词对齐是统计机器翻译系统中最重要的一个环节,统计机器翻译中的翻译模型和调序模型都是在词对齐结果的基础上构造的,词对齐阶段出现的错误,会延续到这些模型中,甚至会因为词对齐的错误而在这些模型中引发更大的错误。为减少词对阶段的错误,提出一种基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对齐错误率更低的词对齐结果。

关键词: 词对齐;统计机器翻译;对齐困惑度;对齐错误率

中图法分类号 TP391 文献识别号:A 文章编号:2095-2163(2013)04-

Filtering Training Corpus and Improving Word Alignment for statistical Machine Translation

LIANG Huashen, ZHAO Tiejun

(MOE-MS Key Lab of Natural Language Processing and Speech, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Word alignment is one of the most important step for statistical machine translation systems.Translation models and reordering models are both built based on word alignment result.The bad influence caused by word alignment error, would still exist in these models, or even become worse. In order to eliminate the word alignment errors, the paper proposes a corpus filtering approach based on alignment perplexity, and also proposes an improved discriminative word alignment algorithm. The corpus filtering approach can omit sentence pairs which contain crucial alignment errors. Compared with the traditional word alignment algorithm, the improved word alignment algorithm can produce alignments with lower alignment error rate.

Key words: Word Alignment; Statistical Machine Translation; Alignment Perplexity; Alignment Error Rate

0 引言

上世纪 90 年代前后,IBM Watson 研究中心的 Brown 等人提出了基于信源信道模型的统计翻译方法[1-3],此类方法的性能远远超越了传统的基于规则的翻译方法。从此基于统计的机器翻译引起了研究者的广泛关注。1999 年,研究者们根据 Brown 提出的思想了第一个基于统计的无指导词对齐工具GIZA[4],其后德国亚琛工业大学的Och等人对 GIZA 进行了改进,了新版本的词对齐工具,称为 GIZA++[5,6]。从此,统计翻译方法成为国际机器翻译领域的研究热点。

总体来说, IBM 的 5 个模型词对齐模型均属于产生式模型,其使用的特征都是固定的,不可以随意加入其它特征。于是,一些学者探索了使用基于最大熵理论的判别式模型进行词对齐的方法。中科院计算所的刘洋将目前流行的统计翻译框架运用于词对齐上,由于此框架采用了对数线性模型,因而这种词对齐技术可以融合任意特征[7]。卡内基梅隆大学的 Dyer 也提出了类似的方法[8],用对数线性模型融合任意的特征,与刘洋工作的不同之处在于,Dyer 采用一种梯度下降的 online 方法对特征权重进行估计,而刘洋则采用统计机器翻译中常用的最小错误率训练 (Minimum Error Rate Training, MERT)[9]的方法对特征权重进行估计。

本文针对IBM词对齐模型4的特点,提出了一串基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤去掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对齐错误率更低的词对齐结果。

1 基于困惑度的训练语料过滤方法

1.1 单语语句的困惑度

在统计机器翻译中,通常引入 n-gram 语言模型来判断自动产生的翻译结果是否为一个合理的目标语言句子。假设e = e1e2…ek是由 K 个单词组成的英文句子,则在N元语言模型 LM 上计算英文句子e的得分如公式(1):

对于同样长度的句子,显然,概率P(e) 越大,句子越“合理”。但由于n-gram语言模型中的 n 元组概率都是小于 1 的,所以句子越长,这个概率就会越小。困惑度 (Perplexity) 就是为了评价任意长度的句子是否合理而提出来的。这一概念的出发点很简单,就是先计算句子中所有 N 元片段概率的几何平均数,然后取其倒数,具体公式如下:

如公式(2)所示,如果e中的N元片段概率都比较高,则说明e是一个较为合理的句子;而困惑度的计算公式则求取这些概率的倒数,因此越合理的句子,其困惑度越小。通常,n-gram语言模型中N元片段的概率都非常小,为了提高计算的精度,在实际的应用中用到的大多是困惑度的对数,公式如下所示:

从公式(2)和(3)中可以看出,困惑度的大小与句子长度无关,因其只取了e中所有 N 元片段概率的平均值。

1.2双语句对的对齐困惑度

在统计机器翻译中,从句对齐的语料中获得词对齐信息是最重要也是最基础的工作。所有无指导的词对齐算法,都是将句对齐概率拆分为词对齐概率,以及一些与单词位置相关概率的乘积。目前通用的 IBM 词对齐模型1-5是一类单向词对齐的模型,这类模型做出了这样的假设:在由目标语言向源语言的对齐过程中,每个目标语言的单词只能向源语言映射一次,即不存在两个以上的源语言单词对齐到同一个目标语言单词的情况。因此在做由目标语言f = f1…fm向源语言e = e1…en的单向词对齐时,共产生m个词对齐;相对地在做由源语言向目标语言的单向词对齐时,共产生n个词对齐。

在产生词对齐的同时,整个语料上的词对齐概率表也会一同生成。对于单语的句子,可以用 n-gram 语言模型估计其困惑度;同样地,对于包含了词对齐信息的双语句对,也可以用词对齐概率估计其困惑度,具体公式为:

公式(4)和(5)之所以用到反方向的词对齐,是因为 IBM 词对齐模型本质上是一种噪声信道模型。在估计目标语言句子f到源语言句子e的对齐概率P(f|e) 时,产生的是以源语言单词e为条件的词对齐概率表 {P(f|e)},而在这个方向上的词对齐,同一个源语言单词e可能对应多个目标语言单词f,也可能不对应任何单词。而在计算困惑度 PP(f|e) 时,每个 f中的单词都分配了一个概率为 P(e|f) 的对齐,这些词对齐概率的几何平均数,即为将目标语言句子 f对齐到源语言句子e上的困惑度。与单语语句的困惑度一样,双语句对的困惑度同样与句子长度无关。若训练语料已经完成了两个方向的词对齐,并且已经得到两个方向上词对齐的条件概率表,则对于双语句对 (f,e),其对齐困惑度为 (logPP(f|e)+logPP(e|f))/2。这个对齐困惑度的值越大,

说明双语句对越“不像”对齐句对。通过设定对齐困惑度阈值,可以将训练语料中对齐困惑度

大于这个阈值的双语句对全部过滤去掉。

2基于IBM 模型4的判别式词对齐

2.1 IBM 词对齐模型概述

IBM词对齐模型3与模型4均属于产生式模型,在由目标语言句子f向源语言句子e的方向上做词对齐时,限定每个目标语言句子的单词只能向源语言方向投射一个词对齐,而产生式模型认为这种词对齐关系是从源语言句子e上经过一系列复杂的操作产生出来的。IBM模型3所作出的词对齐假设如图1所示,IBM词对齐模型3认为词对齐的产生分三个步骤:

第一步,根据产生空位的概率表从源语言句子e的每个单词上长出若干空位,由此得到一个关于空位的向量;

第二步,根据翻译概率表给每个空位填上一个目标语言的单词, 由此得到一个关于目标语言单词的向量;

第三步,根据翻译概率表给每个目标语言的单词安排一个位置,使其组成目标语言的句子f,由此得到一个关于目标语言单词位置的向量。

在实际的词对齐工作中,即使仅仅穷举所有单词产生空位的情况也是一个 NP 问题。为了使词对齐模型在现实工作中切实可行,基于 IBM 模型 3 的词对齐采取了一种爬山的算法。首先 IBM 模型 3 提出了相邻词对齐的概念,对于 (f,e) 上的词对齐a,改动某一个词的对齐,如将fj-ei改为fj-ei’,或者交换两个单词的对齐,如将fj-ei,fj’-ei’变为fj-ei’,fj’-ei,经过此种改动而得到的词对齐均与原来的词对齐相邻。IBM 模型 3 的爬山过程,就是从一个初始的词对齐结果开始,在其相邻的词对齐结果中找出模型得分最高的一个,并以这个结果为新的起点,继续迭代,直至找到的词对齐结果其模型得分不低于该词所有的相邻词对齐结果。由 IBM 模型3 本身的定义,在已知当前词对齐结果的模型得分时,可以快速地计算得到其相邻词对齐的模型得分。

IBM词对齐模型4将模型3的调序模型分为两种情况,一种情况是处理源语言单词产生空位中所填的第1个单词的调序位置关系,这个概率表记为,另一种情况是处理源语言单词产生空位中所填的第1个单词的调序位置关系,这个概率表记为。由于IBM 模型 4加入了这个复杂的调序模型,令其无法快速计算得出相邻词对齐的 IBM 模型 4 得分。因此 IBM 模型 4 的爬山过程比 IBM 模型 3 更为复杂,每一次迭代先计算所有相邻词对齐的 IBM 模型3得分,并将这些相邻词对齐按 IBM 模型 3 的得分降序排列,从排在最前的相邻词对齐开始,计算其模型 4 得分,找到第一个模型 4 得分比当前结果高的,作为新起点继续迭代。

2.2 基于 IBM 模型 4 的判别式词对齐

判别式词对齐的方法采用对数线性模型,对多种特征进行融合。假设词对齐采用的特征集合为H = {h1,h2,…,hk},A为句对 (f,e)所可能产生的所有词对齐的集合,为句对 (f,e) 所可能产生的某一种词对齐,则寻找最佳词对齐的方法如公式(6)所示:

在公式(6)中,为各种特征的权重,通过遍历所有可能的词对齐,综合考虑所有的特征取值,最终找到一种得分最高的词对齐作为自动对齐的结果。对于现实训练语料中的双语句对,穷举所有的词对齐情况是不可能的,因此需要寻找一种启发式的方法,用以代替这种穷举式的搜索方法。

为了减小词对齐的搜索空间,限定双语句对中的每个单词都仅有一个词对齐,这个对齐可以对到空词上。图2给出了基于这种限定的词对齐的一些例子。若使用有向图来表示词对齐,每个单词只能发射产生一个词对齐,即每个非空单词的出度只能为 1,但每个单词的入度可以为任何值。改进的词对齐算法需要首先为双语句对设定一个初始的词对齐。根据已有的 IBM 词对齐模型 4 的词汇互译概率表,源语言端的每一个单词都可以在其对应的目标语言端句子中找到一个对齐概率最大的单词;同样地,目标语言端的每一个单词都可以在其对应的源语言端句子中找到一个对齐概率最大的单词。其中对齐概率最大的单词可以是空词。通过这种方法,可以确定双语句对的初始词对齐。

参考 IBM 词对齐模型中的“爬山”思想,在初始词对齐确定以后,最佳的词对齐结果可以通过多次搜索迭代获得。以初始词对齐结果为起点,每次只改变一个单词的词对齐,这个单词可以是源语言单词,也可以是目标语言单词。对于双语句对,句子中的某个单词fj除去当前对齐到单词ei以外,还有n种可能的对齐,因为fj可以对齐到空词e0上。改变fj词对齐的同时,整个句对的对齐概率也随之改变。在搜索最佳词对齐的“爬山”过程中,单次搜索的目标是:遍历双语句对,尝试改变每一个单词的词对齐,找到使句对齐概率增加最多的词对齐结果。单次搜索的时间繁杂度为O(mn)。整个迭代过程从初始词对齐结果开始,不断搜索比当前句对齐概率更高的词对齐结果,直到改变任意一个词对齐都不能使句对齐概率提高为止。

3 实验及结果分析

3.1 数据准备

本文实验使用的训练语料如表1所示,列表中的语料均是中英双语句对齐语料。这些语料均经过了初步的预处理,滤除了存在乱码的句对,删除了任意一端长度超过 80 个单词的句对和长度比超过 5:1 的句对,中文部分用stanford的分词系统[10,11]进行了分词,英文部分进行了 tokenize 处理。预处理后全部的训练语料大约包含 136 万双语句对。

实验分为两部分。第一部分是利用双语句对的词对齐困惑度对训练语料进行过滤,比较通过不同的过滤阈值得到的语料对翻译效果的影响;第二部分使用本文提出的判别式词对齐和IBM 词对齐模型 4两种方法分别在训练语料上获得词对齐结果,分析这两种词对齐结果的对齐精确率、召回率等指标,以及这两种词对齐方法对翻译系统的影响。

3.2 基于困惑度的训练语料过滤实验

本节的实验通过对齐句对的困惑度对训练语料进行过滤,取困惑度 5?16分别对训练语料进行过滤,过滤的结果如图3的左图所示。用过滤后的语料训练12 个短语模型和调序模型,分别在 NIST 2005,2006,2008 中英翻译语料上进行了测试,其结果如图3的右图所示。

实验证明训练语料中的错误对齐句对是会对自动翻译的结果造成影响的。在用困惑度对训练语料过滤的实验中,训练语料明显减少是开始于困惑度阈值小于 12,而在测试集上得到最高 BLEU-4 得分的部分却是困惑度为 7-8 的区间。这说明对齐困惑度在 8-12 之间的约 40 万对齐句对不仅对翻译系统性能的提高没有帮助,还会起到相反的作用。而虽然对齐困惑度在 7 以下的句对都是较好的互为翻译的句对,但是这部分句对在整个训练语料中所占的比例太小,不足以将自动翻译的效果拉高。实验证明困惑度在 7-8 之间对齐句对恰好是个临界点,在训练语料中加入对齐困惑度在 7 以下的句对时,很可能会提高翻译系统的表现;相反地,在训练语料中加入对齐困惑度在 8 以上的句对时,很可能就会对翻译系统的表现造成不利的影响。

3.3 基于 IBM 模型 4 的判别式词对齐实验

为了检验不同词对齐模型的对齐效果以及不同词对齐结果对机器翻译的影响,在训练语料上分别进行了两个方向的 IBM 模型 4 词对齐和基于 IBM 模型 4 的判别式词对齐。从LDC2003E14 语料中随机抽取 300 个对齐句对,由人工标注词对齐。将手工标注的 300 个平行句对与所有训练语料放在一起,分别进行两种无指导词对齐,其结果的准确率、召回率、对齐错误率如表2所示。其中“IBM model 4 fe”与“IBM model 4 ef”这两个方向的词对齐结果都是通过 GIZA++ 进行单向对齐得到的,“discriminative alignment”对齐结果则是通过本文介绍的判别式词对齐算法得到的。

从表2中可以看出,“discriminative alignment”的词对齐结果在精确率、召回率和词对齐错误率方面,都比GIZA++得到的两个单方向的词对齐结果要好。

为检验不同词对齐结果对自动翻译效果的影响,对GIZA++产生的两个单向词对齐结果运用“grow-diag-final-and”方式进行融合,并分别在“grow-diag-final-and”和“discriminative alignment”两种词对齐结果上构造短语模型和调序模型,同时又在 NIST 2005,2006,2008 中英翻译语料上进行了翻译实验,实验结果如表3所示。

可以看到,判别式词对齐对自动翻译的提升效果最好,判别式词对齐强制每一个单词必须发射一条词对齐,并且这个词对齐可以对应到空词上,这一限制使词对齐的点在整个词对齐矩阵中分布较为均匀,有助于短语对的抽取。

4 结束语

本文介绍了一种基于困惑度的双语语料的过滤方法和一种基于 IBM模型 4 特征的判别式词对齐算法。统计机器翻译系统中的翻译模型,是在句对齐基础上进行处理的,而在实际工作中,大部分的句对齐语料都是从篇章级的对齐语料中自动抽取出来的,因此训练语料中通常存在大量的对齐错误。本文中提出的基于困惑度的过滤方法可以有效地过滤去掉影响翻译质量的错误的对齐句对,提高自动翻译质量。本文中所提出的判别式词对齐算法,在词对齐这一阶段的任务中,可以代替目前流行的词对齐方法,即用开源词对齐工具 GIZA++ 进行两个单向词对齐,并将两个方向的词对齐结果以“grow-diag-final-and”的融合方法合而为一。判别式词对齐算法可以很方便地加入任意特征,在同样加入 IBM 模型 4 各项特征的前提下,判别式词对齐无论是在词对齐方面,还是在对于翻译质量的提高方面,都比传统的方法略好一些。

参考文献

[1] BROWN P F, PIETRA V J, PIETRA S A D, et al. The Mathematics of statistical machine translation: parameter estimation[J]. Computational Linguistics, 1993,19(2):263–311.

[2] BROWN P F, COCKE J, PIETRA S A D, et al. A statistical approach to machine translation[J].Computational Linguistics, 1990, 16(2):79–85.

[3] BROWN P F, PEITRA V J, PIETRA S A D, et al. The Mathematics of statistical machine translation: parameter estimation[J]. Computational Linguistics, 1993,19(2):263–311.

[4] AL-ONANIZAN Y, CURIN J, JAHR M, et al. Statistical machine translation, FinalReport, JHU Workshop, 1999.

[5] OCH F J, NEY H. Improved statistical alignment models[C]// Proceedings of 38thAnnual Meeting of the Association for Computational Linguistics. Hong Kong,China, 2000:440–447.

[6] OCH F J, NEY H. A comparison of alignment models for statistical machine

translation[C]//Proceedings of the 18th International Conference on Computational

Linguistics.Saarbrücken, Germany, 2000:1086–1090.

[7] LIU Y, LIU Q, LIN S. Discriminative word alignment by linear modeling[J]. Computational Linguistics, 2010, 36(3):303–340.

[8] DYER C, CLARK J H, LAVIE A, et al. Unsupervised word alignment with arbitrary features[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA,2011:409–419.

[9] OCH F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan, 2003:160–167.

[10] TSENG H, CHANG P, ANDREW G, et al. A conditional random field word segmente[C]//Fourth SIGHAN Workshop on Chinese Language Processing.Jeju Island, Korea, 2005:168–171.

[11] CHANG P, GALLEY M, MANNING C. Optimizing Chinese word segmentation for machine translation performance[C]//Proceedings of the Third Workshop on StatisticalMachine Translation. Columbus, Ohio, 2008:224–232.

*基金项目:国家自然科学基金重点资助项目(61173073) ; 国家高技术研究发展计划(“863计划”)重点资助项目(2011AA01A207)

作者简介:梁华参(1982-),男,吉林省松原市人,博士研究生,主要研究方向为机器翻译

赵铁军(1962-),男,黑龙江哈尔滨人,博士,教授、博士生导师,主要研究方向为自然语言处理、机器翻译、基于内容的网络信息处理等。