首页 > 范文大全 > 正文

元数据记录的自动翻译:德州历史数字图书馆个例分析

开篇:润墨网以专业的文秘视角,为您筛选了一篇元数据记录的自动翻译:德州历史数字图书馆个例分析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要]对Google、Systran和Bing三个在线翻译系统在德州历史数字图书馆元数据翻译性能上的表现进行人工评价。评价指标包括:流利程度、充分程度、误译数目和漏译数目。分析得出Google和Brag在没有经过任何语料训练的情况下均达到或超越“非母语中文”的翻译水平,最后提出利用在线翻译系统实现数字图书馆多语言信息存取的几种策略。

[关键词]Google Bing Syshan 在线翻译系统 德州历史数字图书馆 元数据 人工评价

[分类号]G250.73

1 研究背景

美国的图书馆与博物馆已建立起许多数字化馆藏或数字图书馆用以保存科学文化成果和物质遗产,它们通过对这些资料进行组织加工生成元数据记录,从而为用户提供方便的访问服务。然而,大部分现有的数字图书馆只能以英文进行访问,只有极少数的数字图书馆采用支持多语言信息存取(MLIA)来帮助用户搜索、浏览、识别和使用多语言数字对象的信息技术和策略。在这个日益全球一体化的信息社会中,图书馆和博物馆正寻找新的手段以服务自己的用户和社会团体,提供新颖的信息存取及快捷地传播用户所需信息。实现现有数字化馆藏中元数据的多语言信息存取,是图书馆与博物馆迈向全球化信息服务中至关重要的第一步。

元数据记录翻译(metadata records tianslatmn)是将用于描述数字馆藏对象的元数据记录从一种语言转换为另一种语言的过程,是实现数字化馆藏多语言信息存取必不可缺的一个环节。因为无论系统采取哪种多语言信息存取策略,其用户最终都需要以他们的母语来理解元数据。然而迄今为止,大部分的这种工作是由人工翻译来完成的。例如,国际儿童数字图书馆(Http://en.省略/)就利用建立翻译者网络来进行元数据记录翻译工作。由于人工进行元数据记录翻译需要花费相当多的时间与成本,图书馆和博物馆有必要考虑其他方案,包括机器翻译和结合机器翻译和人工校正的策略。

机器翻译是人工智能的一个领域,旨在实现自然语言翻译的自动化过程,包括分析并理解一种语言中蕴含的信息,并将其用另一种语言表述出来。翻译的难点在于需要对源语言表达的含义进行解读,并用正确的术语和句法将其用目标语言表达出来。近年来,机器翻译技术取得了巨大的进步,美国联邦政府部门,如国防高级研究规划局(DARPA)和美国国家科学基金会(NSF)以及大型搜索引擎公司如Google、Microsoft等的大量资金支持推动了该领域技术的发展。机器翻译系统已经被广泛用于各种试验性的跨语言信息检索系统以翻译用户查询的关键词或句子,展现出相当不错的检索效果。

然而在数字图书馆领域,机器翻译没有得到实际的应用,甚至在实现了一定程度多语言信息存取的数字图书馆中,机器翻译也没有应用于系统的任何环节,比如查询词翻译或检索结果翻译。其原因可能有多种,但对机器翻译质量的不信任可能是一个很主要的原因。Chen和Bao分析了网上用户对Google LanguageTools的评论,发现反对者的主要担心在于查询词翻译的质量。Yates对于1997年底推出的在线机器翻译系统Babel Fish进行了评价,利用Babel Fish将一些西班牙和德文法律文本译成英文,得出的结论是,由于翻译产生的错误太多,Babel Fish不适合法律图书馆的大部分用户使用。

到底目前的机器翻译效果怎样?能否利用现有的免费机器翻译系统翻译数字图书馆中的元数据以便快捷地实现元数据记录的多语言信息存取?为回答这些问题,笔者对免费的在线机器翻译系统的性能进行了评估,主要目的包括:①了解目前的免费在线翻译系统关于元数据记录翻译的性能;②研究、比较元数据记录自动翻译的评价指标;③探索数字图书馆中元数据记录翻译的策略以实现数字图书馆的多语言信息存取。

2 研究方法

本研究的测试数据来自于美国北德克萨斯大学图书馆的德州历史数字图书馆(The Portal to Texas Histo-ry:http://texashistory.unt.edu/)。该数字图书馆提供了众多关于德克萨斯州历史的数字资料以供人们查阅,月访问流量约为115000人次,使用者来自世界各地。笔者从该数字图书馆获取了1000条元数据,并从中随机抽取了48条用作机器翻译的原始文本,这些元数据采用了都柏林核心格式(dublin 130132),描述对象为图像、报纸及其他类型数字对象。元数据样本见表1。

目前互联网上知名的免费在线翻译系统有Google、Bing、Yahoo、Wordhngo以及Sys~an翻译系统。经过前期测试,发现Yahoo、Wordlingo以及Systran的翻译结果几乎完全一致,因此笔者选择了Goo出、Bing和Systran翻译系统进行下一步测试,随后进行元数据记录预处理。笔者从每个元数据记录中选择了如下元素送人选定的机器翻译系统:者(publisher)、说明(deseription)、创建者(creator)、覆盖范围(coverage)、标题(rifle)和主题(subjeat)。表1右栏给出了该记录中送入机器翻译系统接受翻译的元素。

本研究采用了机器翻译领域普遍采用的来自语言学数据协会(Linguistic Dma Consortium,LDC)的机器翻译人工评价测量指标:流利程度(fluency)和充分程度(adequacy)。流利程度指从语法角度考虑,翻译结果符合自然语言表述习惯的程度,而充分程度指翻译结果包含原文信息多寡的程度。以上两项由评判员在1~5分范围内对机器翻译结果进行打分。本研究借鉴了孙连恒等的人工评分细则,其中分值3又称为“非母语中文”程度。具体分值解释如表2所示:量。误译数目是指没有被正确翻译的词或短语数量,而漏译数目是指系统遗漏翻译的词或短语数目,误译和漏译数目将由评判在评价过程中进行计数,这两个指标旨在保证机器翻译质量评价的客观性。

根据以上分值含义,评判员A和评判员B对每种机器翻译系统的翻译结果进行了人工评测。两位评判员母语均为中文,拥有硕士研究生以上学历,能够熟练读写英文。两名评判员独立进行评测,每条元数据记录翻译结果评测的平均时间为10分钟。

3 评测结果

本节报告记录了48条元数据机器翻译所生成的中文记录的评测结果,并对评测结果进行分析。其内容包括:①inter-coder可靠性;②三种机器翻译系统的性能;③4个评价指标(充分程度、流利程度、误译数目、漏译数目)之间的关联。

3.1 评测可靠性(inter-coder reliability)

rater-coder reliability测试是一种测试编码者间信

度的统计方法,其目的是考察不同的观察者或编码者彼此间的意见是否一致或类似。本研究的样本数据分布呈现出较好的正态分布,因此可采用krippendoff的α可靠性模型来测算inter-coder reliability。测算结果如表3所示:

结果显示,α可靠性相当低,表示两位评判员对样本数据的评分差别较大,例如他们对Google翻译流利程度的判断差异明显,其α值为0.04,远小于1。该结果与文献中反映的利用LDC的充分程度和流利程度进行人工评测所存在的问题是吻合的,即这两个指标具有很强的主观性。

然而当审核两位评判员的具体分值时,他们之间的差别并不像α参数所表现的那么大。比如两位评判对Google的翻译结果在流利程度上的给分在累积率的差异上并不大。两位评判都对超过70%的测试数据给出了3分及以上的分数,对比两位评判的结果,他们对三种机器翻译结果的流利程度和充分程度多给出3~4分的评价。评判B给出高分值的比例较评判A略低,这显示评判B更倾向于为机器翻译结果打出较低的分值。两位评判对Google翻译流利程度的评分分布如图1所示:

3.2 机器翻译的性能

为了对现有的免费在线机器翻译服务的性能有一个大体了解,本研究对机器翻译结果进行了人工评测,并对评测结果进行了分析。与其他对机器翻译的人工评测的分析不同,笔者并未对评价的得分情况进行归一化处理(normalization),而是将两位评判给出的结果进行简单的取平均值以提供更为直观的分析结果。三种机器翻译系统在流利程度上得分的频率分布如图2所示:

从图2中可看出,Bing和Google翻译的测试数据有超过70.0%的得分等于或高于3分,即其翻译流利程度高于“非母语中文”的水平。

三种机器翻译系统充分程度得分的频率分布见图3。图3显示,Bing和Google翻译的测试数据有超过70%的得分等于或高于3分,即其翻译的充分程度较好,systran的得分则较低。

三种机器翻译系统的平均值和标准差,如表4所示:

由表4可知,三种系统的平均分都在3.0以上,其中Systran的得分最低。

三种机器翻译系统的流利程度和充分程度的单因素方差分析结果,如表5所示:

由表5可知,三种机器翻译系统在流利程度和充分程度方面不存在有统计意义的明显差别。流利程度的显著性指标Sig.和充分程度的显著性指标Sig.取值大于0.05,认为各组的均值差异不显著。

随后考察三大机器翻译系统的误译数目和漏译数目情况。三大机器翻译系统每条记录的不正确翻译数目平均在3至5个左右,如表6所示:

由表6可知,Systran的不正确翻译数最多,两类数目均多于Brag和Google,平均每条数据的误译和漏译数约为4.8,而Google仅约为3.7,Bing约为4.0。从具体的误译数目和漏译数目上来看,Bing的误译数目要略低于Google,但漏译数目要高于Google。

Bing翻译结果包含误译和漏译的例子,如表7所示:

尽管误译或漏译数较低,但对理解整个译文有影响。通过相关性分析,笔者发现误译漏译数目和另两个翻译质量测量指标――流利程度和充分程度具有很强的相关性。

3.3 评测结果相关性分析

利用皮尔逊相关系数(r),得出流利程度、充分程度、误译数目和漏译数目间的相关性分析结果如表8所示:

表8显示,机器翻译结果的流利程度和充分程度之间呈现出很强的相关度(r=0.86),这和文献中的结论是吻合的。误译数目、漏译数目与流利程度和充分程度之间的相关度也很高,例如,漏译数目与流利程度和充分程度之间的皮尔逊相关系数分别为~0.537和-0.507,其p值均小于0.05,说明三者显著相关。降低元数据翻译中的误译数目和漏译数目是否有可能提高流利程度和充分程度的得分,将是下一步的研究内容之一。

4 讨论

在评价结果的基础上,评判人员认为Bing在流利程度和充分程度方面表现最好,其次是Google,最后是Systran。然而从统计学分析,笔者发现三种机器翻译系统之间并没有具有统计意义的差别,也就是说,本研究不能得出哪一个翻译系统更具有性能优势。

两位评判员对三种机器翻译系统做出了以下评价:

Bing具有相对全面的翻译功能。表现略优于Google和Systran,特别是在翻译包含单词数不超过lO个的短句时。Bing的中文翻译较为符合中国人的表述习惯,然而在某些情况下的翻译并不准确,例如翻译对象为人名、期刊的卷期号、日期、地点以及少数词序不标准时。

Google的翻译表现中等。虽然遗漏词较少,但Google无法很好地处理某些词汇产生的歧义,有时会在翻译中产生冗余的词汇。

Systran的翻译在句子结构和正确词义的选择上存在较大问题,其基于上下文的翻译能力较弱。此外,Systran对专业术语的识别能力不如前两者。

5 结论与未来的研究方向

总体而言,三种翻译系统中的Google和Bing在没有经过任何语料训练的情况下均达到或超越了“非母语中文”的翻译水平。各翻译系统本身各具特色,如果可以将翻译结果恰当地综合,各系统或可互补优劣。

多引擎机器翻译(MEMT),是将若干机器翻译系统对同一文本的翻译结果进行择优整合,从而对整体的翻译质量加以改进的一种技术,是机器翻译研究中十分热门的领域。人们提出了众多不同的方法并进行了许多试验将多种翻译系统的翻译结果整合,MEMT有潜力达到比任何单一机器翻译系统都要优秀的翻译性能。对这些多引擎机器翻译系统需要进行更大规模的、以应用为导向的评测,MEMT很有潜力应用于元数据记录翻译。

本研究中,四项评价标准之间呈现出很强的相关度,这或许表明,如果采取能够大幅降低错误翻译和遗漏翻译数量的机器翻译策略,将会提高翻译的流利程度和充分程度。本研究的数据样本较少,且局限于特定的领域,因而有必要针对更多、更具代表性的测试数据集进行评价。未来笔者计划研究目前翻译系统在其他语种上元数据记录翻译的效果,并对目前研究较多的几种多引擎机器翻译策略进行探索,了解他们对于元数据翻译的适用情况。

总之,对于数字图书馆而言,有几种方法可利用现有的自动翻译系统实现多语言信息存取:①利用跨语言信息检索查询词翻译技术找到数字对象,然后利用Google或Bing的翻译接口实现动态的元数据记录翻译;②研究多引擎机器翻译技术以取长补短,将所有元数据记录翻译成其他语言以供检索和数字对象的显示;③研制数字图书馆专有的多语种词典,然后采用①或②。这些也将是笔者下一步研究的课题。