翻译测试的评分员信度研究(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇翻译测试的评分员信度研究范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

翻译测试的评分员信度研究本文系国家社科基金项目“本科翻译专业的测试研究”（09CYY005）的阶段性成果，亦得到上海外国语大学首届青年教师科研创新团队项目的资助。本文的撰写得到教育部高等学校外语专业教学指导委员会委员、英语组副组长、上海外国语大学博士生导师邹申教授和邱懋如教授的悉心指导，谨此致谢。

――TEM8翻译项目评分员问卷调查记略

提要：对文本翻译测试这样的主观性测试来说，评分员信度是衡量测试质量，确保其公平、公正使用的主要指标。本文在2010年全国TEM8翻译项目评分员问卷调查的基础上，探讨提高翻译测试评分员信度的策略，用调查数据证实评分员对细化评分标准、网上试评（培训评分员）以及使用网上阅卷自查功能的积极反映，并进行对新评分方案的试验性信度验证。

关键词：评分员信度；主观性翻译测试；问卷调查；八级考试

中图分类号：H315.9 文献标识码：A 文章编号：1000-0100(2011)06-0115-5

Rater Reliability of Translation Testing

Xiao Weiqing

（Shanghai International Studies University, Shanghai 200083, China）

How to obtain a reliable rating is a most stubborn problem, nevertheless, it is the essential problem in subjective translation testing. This paper reports on a survey on TEM8 raters and discusses how rater reliability can be improved. The survey results indicate that computeraided rating training, pilot rating and instruction of the details of the rating schemes, which are all put into practice in 2010’s TEM8 scoring, play an important role in guaranteeing rater reliability. The author also makes sample experiments to prove the rater reliability coefficient. The paper is hopefully of some theoretical and practical significance for popularization of training and testing of translators.

Key words：rater reliability; translation testing; survey; TEM8

1 引言

测试与评估是衡量教学质量和水平的重要环节，也是了解学生水平、促进教学改革的重要手段。衡量测试质量有很多因素需要考虑，而信度是非常关键的指标之一，测试的信度是指考试结果的可靠性和稳定性。（刘润清韩宝成2000：210）测试的信度包括两个方面：第一个方面是测试本身的信度，作为一种测量工具，测试与其他测量工具一样，应该具有一定的可靠性和稳定性，但是不可避免地会产生一些误差，测试本身的信度是指考试测量的一致性的程度，它包括再测信度（testretest reliability）、复本信度（equivalentform reliability）、内在一致性信度（internal consistency reliability）；第二个方面是评分的信度，主要是主观题评分员信度（rater reliability），同一评分员在不同时间对评分标准的把握应该具有一致性和稳定性，不同评分员对评分标准的把握也应该具有一致性。（Brown 2006：F18）对文本翻译测试这样的行为测试来说，评分员信度是衡量测试质量，确保其公平、公正使用的主要指标。

十几年前，相对于听、说、读、写的语言能力考试，翻译测试的研究和实施一直是比较落后的。究其原因大概有以下几点：第一，国际性的标准测试不可能采用翻译形式，因为考生没有共同的母语（刘润清韩宝成 2000：197）；第二，翻译既是科学，又是艺术，同时又是高级技能(craft)，涉及外语和母语，试题设计如何保证效度，确非易事；第三，翻译是主观测试，不易评分，信度堪忧。如今，随着社会对口笔译人才需求的不断升温，翻译测试一改“失宠”的地位，成为成千上万考生趋之若鹜的“试金石”，诸如全国翻译专业资格（水平）考试、上海市口译岗位资格证书考试之类，每年参考者甚众。然而，大型翻译测试的信度、效度研究明显滞后于测试的实施。虽然我们注意到宋志平（1997）、徐莉娜（1998）、海芳（2004）、穆雷（2004，2006，2007）、赖慈芸（2008）、陈怡（2010）等专家学者对翻译测试和评分已有较为深入的理论思考和总体研究，但是从信度、效度等维度来深入挖掘翻译测试本质的研究还比较欠缺，特别是基于评分员问卷调查的翻译测试信度研究几乎空白。

实际上，任何科学合理的翻译教学法和方法论都应该基于实证和理论研究成果(Colina 2003：55)，翻译测试研究概莫能外。笔者对2010年参加TEM8翻译项目阅卷的评分员进行了问卷调查，并且综合对比了陈怡2009年进行的同类问卷调查结果，希望能够从评分员间信度、评分员内部信度、细化评分标准等几个方面，较为深入地探讨如何提高翻译测试评分员信度这一课题。

2 研究方案

2.1 调查目的

为什么要对TEM8翻译项目阅卷的评分员进行问卷调查呢？第一，TEM8翻译项目评分员研究极有可能对全国翻译教学和测试产生普遍的指导意义，因为TEM8阅卷一贯由全国设有英语专业的各类院校指派相应人员参加，评分员结构基本上能代表国内翻译教学的总体师资情况，而有些大型翻译测试的评分员则局限于某些大城市（如北京、上海）的英语教师，因此不一定具有全国性发言权；第二，TEM8历史悠久，发展成熟，试卷设计和实施本身的信度、效度很有保证，在这种背景下便于开展评分员信度研究；第三，2010年TEM8主观题部分第一次采取网上阅卷①，针对评分员信度的一些系统设置需要检验和反馈。本次问卷的直接目的就是调查今年的网上阅卷对翻译项目评分员信度的提高有什么帮助。

2.2 调查方法

问卷共设计36道题目，其中12道事实性题目旨在了解调查对象的基本背景和教学面貌。其他24道题目则是根据调查目的设计的，既有单项选择题，也有多项选择题和开放式问题。其中16道题目是行为性问题和态度性问题（Dornyei 2003：8），备选答案采用国际上通行的Likert量表的形式，让调查对象就某一论断在从1（A）到5（E）五个级别上选择，分别对应“非常赞同”、“比较赞同”、“不好确定”、“不太赞同”和“很不赞同”，以便于更好地作定量分析。

2.3选取调查对象

2010年参加TEM8翻译项目阅卷的评分员有一百余位，来自全国一百多所高校，具有相当的代表性，人员平分到英译汉和汉译英两大阅卷组。其中大约70%的评分员在日常教学中担任翻译课程的教学。与往年问卷调查不同,今年笔者对被调查对象进行了专业方向筛选,保证参加本次问卷调查的全部人员是担任翻译教学的教师，因为没有担任过翻译教学的评分员可能对各类翻译测试（包括随堂测试、期中期末测试等）没有充分的感性和理性认识，而担任翻译课程的教师对翻译测试、评估和教学有更加深入、系统的了解，能够提出更为清晰、合理的意见和建议，有助于增强问卷调查的真实性和代表性。

2.4 调查对象的基本情况

按照担任翻译教师的评分员人数，本次调查共发放问卷70份,回收问卷61份,回收率为87%,所回收问卷全部有效。调查对象的基本情况概括如下：（1）男女评分员比例：28比33；（2）年龄：30-49岁的评分员人数是54人，占 85%，其他年龄段15%；（3）职称：所有被调查的评分员均具有中高级职称――教授 9 人，副教授 22人，讲师 30人；（4）学历：研究生学历 49 人（其中7人具有博士学位），占80%，本科学历 12 人，占20%；（5）专业：全部是英语或英语教育专业，其中14人特别注明所学是翻译方向；（6）从事翻译教学的时间：5年以内的 29 人，占48%，5年以上的 32人，占52%；（7）参加TEM8翻译项目阅卷的次数：首次参加22人，占36%，两次的21人，占34%，三次及三次以上的18人，占30%。

3 调查结果与讨论

一般地说，文本翻译测试的评分就是评分员采用某一特定评分方法，根据既定的评分标准和评分细则，对被试的翻译水平作出主观判断并赋值的过程。文本翻译测试作为主观性测试，对被试翻译水平的最终评价始终无法摆脱评分员主观判断误差的影响。因此，文本翻译测试的评分问题始终是学术界比较有争议的环节。当然我们知道，增加评分员数量，以各评分员给出的分数求得均值作为被试得分，能够直接解决主观测试的信度问题，但是增加评分员数量会极大地增加阅卷的经济成本和时间成本，显而易见，这在很多情况下是不太现实的。如果一份试卷只能由一位评分员来批阅，怎么样才能提高评分员信度呢？

根据经验和本次TEM8阅卷的新情况，我们对翻译测试评分员信度的提高，预设了几种假设，并希望通过问卷加以验证。假设一：细化评分标准有助于提高评分员信度；假设二：网上试评有利于提高评分员之间信度；假设三：网上阅卷的自查功能有利于提高评分员内部信度。

3.1 评分员内部信度

不同评分员之间，同一评分员在不同的心理和情绪状态下，对同一考生的判断往往存在一定程度的不一致性。评分员信度包含评分员内部信度（intrarater reliability）和评分员间信度（interrater reliability）。评分员内部信度要求同一评分员在不同时间阅卷，分数大致相同；评分员间信度指的是不同的评分员阅卷，所得分数大致相同。如何保障评分员内部信度呢？2010年TEM8网上阅卷的系统设置中有一个自查功能。假设某评分员上午评阅了200份试题，下午电脑会随机抽取其中的10份，在评分员不知晓的情况下重评，如果和上午评分出入较大，会提请评分员本人或阅卷组长注意或重评。倘若评分员一会儿手“松”，一会儿手“紧”，以前的纸质阅卷体系是很难发现的，如今有电脑系统来监督，评分员就不敢丝毫懈怠了。因此，评分员对问卷中关于自查功能的评价相当高，参见下表，“非常赞同”和“比较赞同”的占95.1%。

3.2评分员间信度

网上阅卷系统在提高评分员间信度方面也是很有作用的。本次TEM8翻译项目的阅前培训以及阅卷过程中强制性统一抽查都很有特色。阅前培训几乎是所有主观测试都会开展的，不过往往会流于形式。今年TEM8的培训卷分成A、B两组，各有若干套试题，各种评分等级的试题都有。试评之前每套题已经经过专家组统一评分，并加以点评，说明评分的依据。每位评分员先独立完成A组试评，网上阅卷系统会即时给出评分员评分情况和参考评分之间的基本情况，让评分员了解差距，并揣摩、熟悉权威性评分的依据。A组试评是一种自我调适的试评，评分员完成后可直接进B组试评。而进入真实阅卷系统的门槛主要是B组试评的结果。如果在B组试评中评分员评分情况和参考评分之间的差距过大，则评分员需要进行“个别辅导”，借助阅卷组长和专家组的力量，帮助评分员调适。顺利通过B组之后，评分员才可以进入真正的阅卷工作状态。以前纸质阅卷的试评也是有的。评分员一般会拿到好、中、差几个等级的样卷，自己评分后，由阅卷组长统一讲评，讲评之后就开始正式阅卷了。有个别评分员的试评仅仅是走形式，大部分评分员在没有完全把握好标准的情况下就开始正式干活儿了，所以第一天的评阅状况经常让专家组非常头疼。

除了A、B组试评外，阅卷系统还设置了一种强制性统一抽查的功能，即让所有评分员在不知晓的情况下同时对同一份试题进行评阅，然后将评阅的统计数据即时反馈给组长或专家组。作为评分员，我们或多或少都有过这样的经历：开始阅卷时，谨小慎微，可能对评分标准把握比较严格，容易手“紧”。随着阅卷时间的增加，渐渐地松懈下来，容易手“松”。这种网上阅卷的统一抽查有利于阅卷组长和专家组及时了解评分员对评分标准的掌控，及时进行调控：有时需要暂停休息，集体做个简短的再培训，多数情况则是做“个别辅导”。

在问卷中，评分员对网上试评以及强制性抽查的反应也是很好的，参见下表，积极的反应（包括“非常赞同”和“比较赞同”）分别是95.1%和82%。

3.3 细化评分标准

Hudson指出，评分规则和标准是保证评分质量的核心，但是不是所有的评分规则都做到了清楚地解释语言能力，他比较了各种以往的评分方法，认为评分规则的细化是保证评分质量的关键所在（Hudson 2005）。Michaeline ChalhoubDeville(1995，1997)也认为要保证评分员评分的一致性就须要细化评分规则。（马春燕 2006：5）

2010年的TEM8翻译项目评分体系，采用了和往年不同的所谓修订方案，修订方案旨在增强标准的操作性，提高评分员的整体信度。与以往的的八级考试翻译评分量表相比，这一方案有如下几个特点：第一，这一评分方案不是由单一的评分量表或标准构成，而是由等级综合性描述、等级操作性描述、结合具体任务的具体指标（即考点）这三部分构成；第二，考虑到分析性评分量表对于综合性评分量表的优势，这一评分体系将原来的整体评分法改为分析评分法，要求评分员根据考生的译文忠实性和语言适切性分别打分，同时融入了首要特质评分的思想，即在总体统一的评判框架下，根据具体的任务（翻译文本），有具体的观察指标，即考点；第三，操作性描述主要从词、句两个层面的翻译转换和目的语语法质量这三个方面展开，评分员比较好把握。（陈怡 2010：116-119）

关于评分体系的区分度和可操作性，2010年和2009年两年的问卷调查都有所涉及，参见下表。粗略地看，今年评分员对细化的评分标准满意度有所上升，六成以上的被调查评分员给予积极的评价，而去年的正面反映分别是三成左右（陈述4）以及不到五成（陈述5）。

当然，这是评分员对细化评分标准的一个主观反映，并不能完全替代客观上信度的评价。针对评分修订方案，笔者做了试验性的信度验证。试验过程和结果简述如下：随机抽取了2005年TEM8汉译英、英译汉②各50篇文本，分别请两位富有经验的翻译评分员在本次TEM8阅卷后③，按照新的评分方案分别对文本进行评分④。经过抽样文本的描述性统计后，做SPSS13.0中的MEstimators检验，发现抽样文本都符合正态分布的趋势，再通过SPSS13.0中的皮尔逊积差相关（Pearson productmoment coefficiency）检验两位评分员间在分项及总分上的相关系数，具体结果见表7。Jacobs等人（1981：24）规定的可以接受的评分员一致性的标准是0.85。研究初步表明，制定的新的评分方案具有较好的可操作性，能在评分员之间达到较高的一致，具有比较令人满意的信度。

3.4评分员总体评价

笔者在问卷中还设计了两道对网上阅卷的总体印象题，从统计数据上看，虽然评分员普遍认为网上阅卷大大提高了评分员信度，但是抱怨工作强度有所增加，评分员更容易疲劳，参见表8和表9。

表8 陈述6：从总体印象上看，今年机助阅卷比往年纯手工阅卷更能保证阅卷的质量。

非常赞同比较赞同不好确定不太赞同很不赞同。

表9 陈述7：在相同工作量的情况下，今年机助阅卷比往年纸质阅卷使评阅教师更容易疲劳。

非常赞同比较赞同不好确定不太赞同很不赞同

所以，在看到网上阅卷的种种优势的同时，我们也要考虑网上阅卷的一些副作用，今后尽量改善评分员的阅卷条件，比如改善阅卷的硬件设备，尽量缩短阅卷的时间，增加阅卷中的休息次数，等等。

4 结语

信度就是测试的可靠性和稳定性，是标准化考试质量评估的重要指标。它会受到误差的影响，误差越大，信度越低；误差越小，信度越高。在主观评分中，我们通常用评分员的一致性来表示信度。由于评分员的差异会带来随机误差，所以提高测试信度的方法也就是要消除评分员的差异，让他们的评分尽量保持一致。近年来，在主观测试研究中,一般会采取下面的方法提高评分员信度，如电脑辅助培训评分员、细化评分规则、使规则更易于操作等方法。但是，在文本翻译这样的主观测试研究中，我们暂时还没有看到验证性的调查。借助TEM8阅卷平台，笔者的问卷调查和信度验证基本证实了之前的三个假设：细化评分规则、网上试评（培训评分员）以及网上阅卷的自查功能都有利于提高评分员的信度。在目前翻译教学和翻译测试蓬勃发展的大背景下, 本调查可以为大规模翻译测试提供比较有价值的实证数据。

当然，本研究还存在一些局限性，需要不断拓宽眼界，做深做实。第一，研究重点是从评分员主观上判断某些做法是否有利于提高评分员信度，客观上信度评价的实验虽有涉及，但还比较薄弱。第二，提高主观性测试的信度，并不局限于本文讨论的方法。除了以网上培训、阅前培训、阅卷过程随机抽查等措施，滤除评分员主观因素的影响，对于其他方面的系统误差，还可以借鉴四、六级考试开发的软件系统，根据考生在主、客观题上得分的相关性进行调整，以滤除系统误差。第三，命题方面也可以努力提高翻译测试的信度，建立主客观题型相关性支持下的翻译测试体系：除了单纯的句子、段落或篇章翻译，翻译测试也可以设计成其他题型，如单项填空、判断题和多项选择题、段落填空和段落改错题、条件性翻译测试题、翻译评论等。也就是说，在考试项目上可以适当考虑采用方便客观阅卷的题型。总而言之，翻译测试的信度研究，特别是评分员信度研究，还须要进一步深入地探讨，它对提高翻译教学质量、大力培养翻译人才具有较为重要的理论和现实意义。

注释

①所谓“网上阅卷”实际上指的是与以往纸质阅卷不同的一种评阅形式，评分员在电脑上评阅已经扫描好的试题。TEM4于2009年开始网上阅卷，而大学英语四六级的考试使用网上阅卷则在5、6年以前。

②样本来自国内首创的学习者翻译语料库，即《中国高校外语专业多语种语料库建设与研究――英语语料库子项目》第一期的翻译语料。

③因为参加了近十天的TEM8翻译项目评阅，这两位评分员对新的评分方案相当熟悉。

④具体评分数据可参见笔者即将出版的专著《翻译测试与翻译教学》一书。

⑤为了简便起见，我们可以利用Excel软件中自带功能算出相关系数。步骤如下：在输入所有数据后，插入函数-统计CORREL，把需要计算的两列变量依次选中，填入Array1和Array2表格，测量结果立即显示出来。

参考文献

陈怡. 英语专业高年级学生汉译英能力与测试评分［D］. 上海外国语大学博士学位论文, 2010.

海芳. 英语专业本科生的笔译测试［D］. 上海外国语大学博士学位论文, 2004.

赖慈芸. 四种翻译评量工具的比较［J］. 编译论丛（台湾）, 2008 (1).

刘润清韩宝成. 语言测试和它的方法［M］. 北京：外语教学与研究出版社, 2000.

马春燕. 用LONGFORD方法对主观评分中的异常分数进行分数调整［D］. 北京语言文化大学硕士论文，2006.

穆雷. 翻译测试的定义与定位［J］. 外语教学, 2007 (1).

穆雷. 翻译测试及其评分问题［J］. 外语教学与研究, 2006 (6).

穆雷. 翻译教学中（汉英/英汉）文本测试研究―模糊综合评分模式的建立［D］. 香港浸会大学博士论文,2004.

宋志平. 关于翻译测试的理论思考［J］. 中国翻译, 1997 (4).

徐莉娜. 关于本科生翻译测试的探讨［J］. 中国翻译, 1998 (3).

Brown, J. D. Testing in Language Programs：A Comprehensive Guide to English Language Assessment［M］. Beijing：Higher Education Press, 2006.

Colina, S. Towards an Empiricallybased Translation Pedagogy［A］. In Baer, B. J. & Koby, G. S. (eds.). Beyond the Ivory Tower：Rethinking Translation Pedagogy ［C］. Amsterdam：John Benjamins, 2003.

Dornyei, Z. Questionnaires in Second Language Research［M］. London：Lawrence Erlbaum Associates, 2003.

Jacobs, H. L. Testing ESL Composition：A Practical Approach［M］. Rowley：Newbury House Publishers Inc., 1981.

2011年第6期

总第163期外语学刊

FOREIGN LANGUAGE RESEARCH2011，No.6

Serial No.163

翻译测试的评分员信度研究

常用范文

优秀范文

精选范文