在动态中趋近真实(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇在动态中趋近真实范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要现行客观性外语测试题评分的缺陷主要表现在：对不同考查任务的赋分差异充满主观偏向，对同一考查任务中的各个小题进行平等赋分难以反映各个小题对外语能力的不同要求，造成这两方面问题的根源在于评分没有反映不同的试题对有不同的外语能力要求。为了纠正客观外语测试题的评分缺陷，本研究尝试提出基于难度系数的动态评分设想：首先根据考生的答题情况，计算出各题的难度系数；接着根据各个小题的难度系数，对其进行赋分，作为评分标准，称作基于难度系数的赋分；根据难度系数赋分，统计考生的原始分；最后，把考生的原始分转换成符合接受习惯的T分数。这种评分方法不是基于测试设计者的预设标准，而是基于不同考生群体的具体表现，随考生群体情况的变动而变动，所以叫动态评分。为了更详细地解释这种评分方法，本文还进行了实例演示。

关键词客观试题；外语测试；动态；评分

[中图分类号] G424.79 [文献标识码] A [文章编号] 1008-004X（2013）02-012-06

收稿日期 2012-03-12

[作者简介] 詹先君，男，湖北黄冈人，安徽科技大学外国语学院讲师，主要从事教育评价研究。

1、引言

评分是指按照一定的标准，评分者（人或电脑）对某一题目的答案或考生在某一个考试中的表现进行赋值。按照评分方法来划分，外语测试题目可以分为客观试题和主观试题，评分时不需要评分员做出判断的就是客观试题，在评分过程中需要评分员自己作出判断的试题，就是主观试题。评分客观正确与否，直接关系到语言测试对考生的能力素质评价的有效性和真实性，所以评分外语测试中的重要环节，备受研究者关注。长期以来，学术界对外语测试评分的研究主要集中于主观试题上。这是因为，主观题的评分受人为因素的影响比较大，评分标准不易确立和把握，对主观性试题的评分难于做到客观真实，具有很大的研究空间和研究价值。因此，有关主观题评分问题的研究成果不仅非常丰富，而且还很全面、深入。综观国内外的研究，在范围方面，对外语主观题评分的研究涵盖了写作测试、翻译测试、口语或口译测试、听写测试等几大领域，在研究范畴方面，涉及到了主观题评分主体、评分标准、评分方法、评分程序等方方面面。

相形之下，对在外语测试中占有很大比例的客观题评分的研究几乎没有。以“客观题评分”为关键词在CNKI、百度或者google上进行搜索，看到的都是一些描述外语测试客观题评分、计分方法的介绍性和描述性文献，很难找到有关研究客观题评分方法的文献。客观题评分问题之所以没有得到学界的关注，是因为客观题评分标准客观，赋分清晰，且在现代科学技术手段的支持下，客观题评分多由电脑完成，能够做到评分方便，计算快速准确。因此，人们可能这样认为，客观题评分既然都是有着明确的标准和客观的方法，很少受人为因素的影响，研究的价值和空间不大。其实，客观题评分虽然表面客观，但是其实质还是主观的，因为其评分标准、题型之间的赋分差异、评分方法等诸多重要因素都是经过外语测试的开发者和设计者来设定的，只不过把这些人为设定的因素交给评分者（人或电脑）去执行罢了。其实，考察现行的客观性外语测试题评分方法，可以发现其中存在一些比较大的缺陷。本文将结合相关语言测试理论分析这些缺陷并尝试提出一种新的客观性外语测试题评分方法，以提高其合理性、科学性和真实性。

2、客观外语测试题评分缺陷分析

外语测试中的客观性试题具有多种形式，如多项选择题、匹配题、判断正误题、排序题等，不过，目前得到大量采用的仍然是多项选择题。Bachman指出，外语测试中的客观性多项选择题可以分为两类：最佳答案型（best answer type）和唯一答案型（correct answer type），最佳答案型多项选择题要求考生在几个类似的答案中选择与语境、情景、意义最合适的答案，考查多方面的语言能力，对考生的要求比较高，难度比较大。唯一答案型的多项选择题考查的内容单一，正确答案与其他答案（干扰项）区别明显，考生比较容易识别，难度比较小。题干相同的题目，根据其选择项的不同，既可以是最佳答案型的题目，也可以是唯一答案型的题目。现以一道选择替代词的题目为例来说明这个问题，该题的题干是：

All professors at the university ceased their teaching because of the large pay rises given to top administrators while faculty salaries are frozen.

如果配以下列选项： A. began B. changed C. stopped D. increased，

只有选项C唯一正确，那么这道题就是唯一正确答案型的题目了；

如果换作以下选项：A. terminated B. finished C. discounted D. completed，

最佳选项为C，那它就变成最佳答案型的题目了。Bachman同时还认为，因为外语测试中的题目很难做到只考查单一语言能力，多数题目考查的是综合语言能力，因此，大部分的多项选择题目是最佳答案型的题目，并建议根据答案反映的语言能力情况，对最佳选项外的选项进行适当赋分。

应该说，Bachman对外语测试多项选择题评分理论相当细致、完整、令人信服，可是，在外语测试的实践中，多项选择题的评分却严重忽视了题目之间的差异，评分表面上客观，实际上却充满了主观性。这种缺陷主要表现在两方面：同一测试任务下的每个小题赋分相等不能体现题目差异，不同测试任务之间的赋分差异主观偏向严重。

2.1.不同测试任务之间的赋分差异主观偏向严重。

目前，在国内外大规模外语测试中，对阅读理解、完形填空、单项选择、听力等部分的考查常采用客观性试题，并且对不同的考查部分中的客观题采取差异赋分制度，一般来说，对阅读理解中的客观题赋分最高，往往达到每题2分，对听力、完形填空和语法考查中的单项选择等题目的赋分往往比较低，常为每题0.5分、1分或者1.5分不等。如在2009年的高考英语试卷中，全国卷和各分省卷对阅读理解试题的赋分均为2分，但是对完形填空的赋分却各不相同，全国卷I、全国卷II、湖北卷、安徽卷、北京卷、福建卷、湖南卷、江西卷、辽宁卷、陕西卷、四川卷、天津卷、重庆卷完形填空每题均为1.5分，广东卷为2分，山东、浙江、江苏卷则为1分。又如在研究生入学英语考试和大学英语四六级考试中，完形填空的赋分都是0.5分，阅读理解的赋分为2分（见表1）。从这三个大规模考试来看，阅读理解都是每题2分，而对完形填空的赋分则有很大差异。如在我国的高考英语考试中，阅读理解和完形填空的赋分差异出现了0分（如广东卷）、0.5分（如全国卷I、全国卷II、湖北卷、安徽卷、北京卷、福建卷、湖南卷、江西卷、辽宁卷、陕西卷、四川卷、天津卷、重庆卷）、1分（如山东卷、江苏卷、浙江卷）等几个差值，而在研究生入学英语考试和大学英语四六级考试中，这个差异则达到了1.5分。现在的问题是，在这三种考试中，为什么同样是两种题型，赋分的差异却悬殊如此之大，确定这样的差异是否有理论和实践依据？Alderson认为，“对一份试卷中的各个部分进行不同的赋分叫加权处理，加权处理的依据在于反映对不同语言能力的不同要求，对教学大纲中不同培养目标的侧重，也反映语言测试设计者对语言能力的不同看法。”Alderson的观点似乎为这种赋分差异提供了理论根据，但是他的理论也充分暴露了不同题型之间的赋分差异的强烈主观性缺陷，因为这种赋分差异虽然反映测试对不同语言能力的不同要求和对教学大纲中不同培养目标的侧重，但是这些要求和侧重最终都必须依靠语言测试设计者来贯彻落实。所以，赋分差异实际上是“反映语言测试设计者对语言能力的不同看法”，也就是说，外语测试设计者的主观看法很大程度上左右着各个不同测试任务赋分的比例、大小，正是由于这种主观性，才导致完型填空题和阅读理解的赋分差异在分省命题背景下的英语高考、在研究生英语考试和大学英语四六级考试中各不相同的局面。

在动态中趋近真实

常用范文

优秀范文