TEM8写作考试评分员差异性研究(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇TEM8写作考试评分员差异性研究范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：本研究通过对专家在2010年英语专业八级的5份作文样卷的评分及某校学习语言测试课程的研究生在此样卷上的评分，对比分析了两组评分者的异同，并探讨了初学评分者的评分质量。希望通过此研究，为培养英语教师的评价素养提供参考。

关键词：英语评价素养；Raseh模型；偏差

中图分类号：H319.3

文献标识码：A

文章编号：1001-5795(2012)01-0042-0005

本世纪以来，经过不断深入的英语教学改革、英语课程标准制定与大纲修改、在职英语教师培训等，我国的英语教学水平无论在中学还是大学都有了显著提高。英语教学改革要求英语教师在不断提高教学理论和方法的同时，也必须重视测试理论知识与实践能力的培养，具备测试和评价学习者成就的能力，从而保证教师对学生的学习成就评价客观公正，无偏颇。这样，教师才能更好地利用考试的正面反拨效应，提高教学成效。因此探讨职前英语教师测试和评价素养的培养途径，显然成为必不可少的一个环节。

1　研究背景

1.1职前英语教师测试和评价素养研究

英语教师对英语测试和评价的熟悉程度不仅关系着自身的职业发展，而且关乎英语课程改革的成败。外语教师的“外语评价素养”这个概念被外语教育领域认可的过程较为缓慢。美国教师协会等1990年制定了《教师开展学生教育测试的能力标准》，并于1991年在全国范围内调查了各学科教师的评价素养。从外语教育来讲，人们最初只是考察外语测试及相关课程的开设情况。2008年，第五届欧洲语言测试协会年会专题讨论了欧洲及其他国家的外语教师外语评价素养的现状和未来，显示外语教师外语评价素养问题开始得到了关注。欧盟2010年颁布《格拉茨语言教育宣言》，明确提出深化外语教育中教师外语评价素养发展的目标。

国内对英语教师测试和评价素养的研究还不多见。2010年金艳教授在全国范围内调查了大学里外语测试课程开设的情况(Jin，2010)，并指出外语教师测试理论知识、特别是实践能力的培养还有待提高和完善，包括教学过程中的各种新型评价手段的开发和利用、对考试的教学后效和社会影响的理解和重视、教育统计和心理测量方面的知识和技能的掌握等。这项研究为我们了解外语测试课程设置的情况提供了有益的信息，但研究并没有涉及外语评价素养和培训途径。

1.2国内对评分者评分质量的相关研究

近几年来，国内外语界的学者已经开始探讨多层面Raseh模型在评分中的运用(如何莲珍、张洁，2008；刘建达，2005，2010；谭智，2008；王跃武等，2006；张洁、何莲珍，2008；张新玲等，2010)，这些研究为我们深入了解评分过程中评分者的行为和评分结果等提供了很好的案例，但由于很少比较专家和初学者在评分方面的异同，不能为英语教师测试和评价素养的培养提供太多指导。

因此，本研究力图在此方面作些尝试，通过比较专家评分和初学者评分的异同，为职前英语教师英语测试和评价素养的培养提供参考。主要研究以下三个问题：①专家和初学者的作文评分严厉性是否存在显著差异?②专家和初学者对评分标准的把握是否存在偏差?③专家和初学者对考生的评分是否存在偏差?

2　研究方法

2.1被试和数据收集

本研究的被试有两组：专家组和初学者组。专家组来自2010年英语专业八级作文评分标准制定小组，选出了5份当年英语专业八级作文样卷，并按照作文评分标准(2010年开始采用的新标准)给每份样卷评分。新标准采用了分析法评分(analytical marking)，因此每份样卷的分数包括三个分项分：思想内容(满分为10分)、语言运用(满分为8分)和书写规范(满分为2分)。但用于本次实验的作文样卷采用Word文档输入，无法准确判断书写规范指标，所以最终的实验对比只包括思想内容和语言运用两个项目的评分结果。初学者组来自四川某师范大学英语学科教育硕士一年级的学生。从2011年2月底到2011年4月底接受了为期两个月的语言测试课程培训，共计34学时。一共有30名学生参加了这次实验，他们按照同样的评分标准对这5份样卷进行评分。由于2名学生的评分不完整，最后用于统计的初学评分者有28名。

2.2数据分析

本研究采用了John.M.Linacre开发的Bond &FoxFacets软件进行分析，并以Bond & Fox(2007)提供的统计量作为分析指标，包括度量值、模型标准误差、拟合统计量、分隔系数和信度、卡方检验值。度量值(Measure)表示个体在共同标尺上的标度值。软件Bond& Fox Facets将所有层面中的每个个体的度量值都转化为以logit(对数概率单位，全称为log odds unit)为单位的统一度量值，便于各层面之间的比较和分析。模型标准误差(Model s.E.)指度量值的精确度，即运用该模型估算的准确程度。拟合统计量(Fit statistics)用以衡量每个个体的实际观察值与模型预测值之间的拟合程度，包括加权均方拟合统计量(Infit Mnsq)和未加权均方拟合统计量(Outfit Mnsq)，由于后者更容易受到个别差异较大的数据影响，因此一般以前者作为判断个体是否拟合模型的依据。拟合统计量的期望值为1，说明与模型预测完全符合；拟合值大于1说明数据和模型存在随机偏差；拟合值小于1则说明数据之间的差异小于模型预测的差异。分隔系数(Separa-tion)和信度(Reliability)指衡量每个层面的个体之间的差异是否大于测量误差，数值越大说明有越大的把握认为该层面个体之间存在显著的差异。信度的含义与一般意义上的评分者信度有所不同。后者是评分者之间相似度的衡量，数值越大说明两个评分者评分越一致。而这里的信度是分隔信度，衡量的是评分者之间有显著差异的程度。卡方检验值(Chi-square Statis-tics)与分隔系数和信度类似，卡方值大，说明该层面个体之问在统计上具有显著的差异，因而应该拒绝个体无差异的零假设。

3　结果与讨论

3.1整体情况

(1)总层面

图1是所有层面的总体分布情况。最左边的纵列是logit量尺，它是后面所有纵列参照的共同标准(何莲珍、张洁，2008)。第二列是考生能力的度量值，度量值越大说明能力越强，获得高分的概率越大。第三列是评分者层面，与考生能力的度量不同，评分者的严厉度，以及后面的评分组、评分标准难度都是负向的，度量值越大，说明评分者越严厉，或评分标准越高，考生获得高分的概率越小。从图中可以看出最严厉的14号评分者与最宽松的22号评分者度量值之间相差大约2 logits，考生能力度量跨度大约4 logits，这从一个侧面说明，评分者之间严厉度的差异不大，考生之间的成绩有一定差异。同样地，从第四纵列可以看出，专家评

分员比初学者相对严厉些，但是差别不大。从第五列可以看出，两个评分子项(思想内容和语言运用)的难度接近。最右边两个纵列分别对应了两个评分量表的使用情况，每个纵列中区分各分值的横线代表相邻两个分值的临界能力值，能力值大于该临界值的考生更容易得到较高的分数，反之则更可能被判为较低的分数。此图可以使我们对各层面分布情况有个直观了解，对分析结果有个总体的把握。

(2)考生层面

表1报告了考生层面的分析结果，考生能力的度量值由高到低排列。最下方的数字是各个层面总体的统计量，其中分隔系数为10.48，分隔信度为0.99，卡方检验统计量为421.6，显著，说明考生之间的差异很大。一般来说，高风险考试的加权拟合统计的拟合范围取值介于0.8～1.2之间，大于1.2表示非拟合，小于O.8表示过度拟合(Bond & Fox，2007)。整体来看，5名考生拟合Rasch模型，不过个别考生不拟合或者过度拟合模型，如5号考生不拟合Rasch模型，3号考生讨度拟合。

(3)评分标准层面

表2的结果显示评分标准层面的分隔系数为1.69，信度0.74，说明这两个标准难度差异显著，但是差异不大。加权拟合统计表明这两个标准对模型的拟合都在可以接受的范围内(0.81～1.13)，这说明评分者在各项评分标准上的评分总体上具有较好的前后一致性；各标准之间有适度的联系，且没有出现冗余的标准(过度拟合)，达到了预期的目的。

为了进一步了解评分标准各分数段的使用情况，我们考查了思想内容评分量表的情况(表3)，这也是判断评分者对评分量表是否合理使用的重要依据。其中计数及百分比的值反映了各分值的使用频率。评分标准对应的分数段度量值基本上是从低分到高分递增，而且具有一定的阶梯差距，这从总体上说明了评分者能够一致并较为准确地应用各分值来区别不同水平的考生，并且评分量表的使用没有明显的趋中现象。但是也存在一定的个别差异，如评分者对1分、2分和10分的把握存在一定问题(标记有*的分值)。另外，未加权拟合量也是检验分值使用情况的重要指标，若有分值的未加权拟合量大于2.0，说明得到该分值的考生其预测分数和实际分数有较大的差距，即该分数不能准确反映考生水平。从表中看出，只有0分的拟合量大于2，这可能是由于这个分数使用量非常少，导致FACETS估算误差较大而引起的。总体来说，评分者能够有效、一致地使用评分量表对不同水平的考生进行评分。

(4)评分者层面

整体来看，评分者层面拟合模型，但是评分之间的一致性不高，平均的一致性程度只有22.64％。其中，严厉度的分隔指数为1.34，信度为0.63，卡方值为81.2(d.f.=28)，显著性p=0.00，这说明评分者之间的严厉度有显著差异。从个体统计量来看，度量值对应了评分者的严厉度，加权拟合量反映了评分者评分时自身的一致性。本次考试属于高风险考试，加权拟合量取值界定在0，8～1，2的范围内可以认为评分者具有较好的前后一致，超过1，2说明该评分者自身的评分一致性较差；小于0，8说明评分者评分中的差异太小，评分时可能存在一定的趋中性或光环效应。表4列出了不拟合模型的评分者情况。可以看出，有5名初学者的拟合值超过了1，2。另外还有18名初学者的拟合值小于0，8，评分过程中有一定的趋中倾向。以上说明，评分一致性差且不拟合模型的5名初学者不应再直接参加评分，而其他1 8名初学者也需要接受进一步的培训，加强其对评分标准的理解，使其能够一致且有效地使用评分标准。在28名初学者中，合格的评分员比例不到18％，约18％的初学者评分一致性差，达不到要求，64％的初学者在评分过程中趋中现象严重。

3.2　结果与讨论

(1)专家和初学者的作文评分严厉性是否存在显著差异?

表5是专家和初学者评分严厉性统计报告。由表5可知，专家组对5名考生评分的平均分为8.6分，严厉度量值为0.27；初学者对5名考生评分的平均分为11分，严厉度量值为-0.27，两组评分员的严厉度相差1 logit。分隔系数为1.64，信度为O.73，卡方值为3.7，p值为0.05，显示专家和初学者的评分严厉性存在显著差异，初学者的整体评分过于宽松。

(2)专家和初学者对评分标准的把握是否存在偏差?

图2是专家和初学者对两个评分标准使用情况的偏差检验。图2显示两组评分员对两个标准(思想内容和语言运用)的把握都在接受范围内(|t|

表6是评分者对评分标准的显著偏差统计。虽然从组别来看，专家和初学者对评分标准的把握没有显著偏差，整体来看评分者对评分标准的把握也没有显著偏差(p>0.05)，但是初学者当中的个别评分者对评分标准的把握存在显著偏差。如，21号评分员对语言应用这一标准把握不好，标准使用过于严厉。22号评分员对思想内容和语言应用两个标准都把握不好，思想内容标准的使用过于宽松，而对语言应用标准的使用过于严厉。

(3)专家和初学者对考生的评分是否存在偏差?

图3报告了专家和初学者对考生评分的偏差检验。该图显示两组评分员对5个考生的评分都在接受范围内(|t|

图3

专家和初学者对考生评分的比较

表7是评分者对考生评分的显著偏差统计。虽然从组别来看，专家和初学者对考生的评分没有显著偏差，整体来看评分者对考生的评分也没有显著偏差(p>0.05)，但是初学者当中的个别评分员对个别考生的评分存在显著偏差。23号评分员对1号、2号和5号考生的评分有偏差，其中对1号和2号考生的评分过于宽松，而对5号考生的评分过于严厉。18号评分员对1号考生的评分有偏差，过于严厉。27号评分员对3号考生的评分有偏差，评分过于严厉。

4　结论

本研究通过比较专家和初学者在作文评阅中的异同来探讨职前英语教师的英语测试和评价素养的培养。本研究有以下发现：①专家和初学者的作文评分严厉性存在显著差异，初学者的评分相对宽松；②专家和初学者对评分标准的整体把握没有显著偏差，但是个别初学者对评分标准的把握有显著偏差；③专家和初学者对考生的整体评分没有显著偏差，但是个别初学者对个别考生的评分存在显著偏差。本研究还发现，初学者的整体评分质量差，需要不断接受培训。

英语教师教育需要加大对英语学科的职前教师，甚至是在职教师的英语语言测试和评价素养的系统培养。本研究仅探讨了职前教师的评分能力，还没有涉及其他方面，如英语语言测试理论和实践、教育测量和统计学知识等方面的素养，也未对初学者的评分过程进行深入了解，因此今后的研究还将进一步探讨包括在职教师在内的英语教师的测试和评价素养及其如何进行针对性的培训等问题。

基金项目：上海外国语大学211工程三期建设项目“现代技术和语言测试研究：方法和应用”资助，项目号211YYZYL01。

TEM8写作考试评分员差异性研究

常用范文

优秀范文

精选范文