首页 > 范文大全 > 正文

主观评分保守现象的形成机制与控制研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇主观评分保守现象的形成机制与控制研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:研究对某次大型人事考试的主观评分结果进行分析。结果表明,各题上考生得分的离散程度偏小,评分者所评分数的分布比较集中且处于低分段,体现出评分者打分时相当保守,同时分数全距缩小也降低了主观性试题的效用。各题均值和标准差都随评分时间的增长而有所减小,体现了评分保守是一个“习得”的过程。为控制这种现象的发生,在不降低评分一致性的前提下,进一步提升评分的准确性,可通过优化误差监控的指标,插入标准卷,以及采用分步增值评分模式进行流程控制。

关键词:主观评分;评分保守;误差控制

中图分类号:B841.2 文献标识码:A 文章编号:1003-5184(2012)05-0429-10

1 主观性试题的评分者误差与控制

主观性试题是考试的重要题型之一,与客观性试题相比,它给考生留下了较大的发挥空间,它可以考查考生对知识的分析、综合、应用和评价等多方面的能力素质,可以更有效地区分考生,同时还可以避免考生的猜测。从测量理论来看,主观性试题的信度受到诸多因素的制约,如题目本身,评分过程的复杂性,评分者等。其中,来自于评分者的误差最为复杂,成为影响主观性考试信度的关键因素。在一些考生众多的主观性考试中,评分工作可谓是一项庞大而又复杂的工程。

大量关于评分者的研究揭示了来自于评分者方面的误差。例如,Lane和Stone(2006)曾经在研究中发现,造成评分者误差的原因是多种多样的。评分者对标准的掌握、评分的宽严程度,评分者的个人喜好、疲劳程度,以及在评分过程中的犹豫等个体差异都会损害评分信度。这些误差的主要表现形式有(McNamara & Adams,1991):不同评分者对同一考生的评分尺度不一致;不同评分者对同一题目的评分尺度不一致;同一评分者对不同考生的评分尺度不一致;同一评分者在不同时间段的评分尺度不一致等诸多情况。以作文评分研究为例,Lumley(2002)的研究指出,尽管评分者在评分过程中遵循相同的步骤,但是他们总会在对作文的第一印象、作文的具体特征以及评分标准拟订的规则之间采取权衡的态度,由于评分标准不可能包罗万象,评分者不得不采取各自的策略来应付评分过程中遇到的各种问题。可见,尽管评分者尽可能地坚持评分标准的规则,但不同的评分者对同一篇作文的评分可能是不一样的。McQueen和Congdon(1995)的研究指出,评分者的宽严度并非一成不变,而是会随着时间的延长随机波动。此外,试题类型也会同时影响考生的做答和评分者的评分。考试中不同作业任务难度上的差异,也会引起评分员评分的差异(Hidi & McLaren,1990)。

为了控制评分过程中的评分者误差,通常需要采用事前对评分者培训、事中对评分流程监督、事后对评分结果校对等手段。然而,以往所采用的有纸化阅卷方式在控制评分误差方面存在一些弊端(丁琳,2003;张昌应,2003)。首先,有纸化阅卷根本谈不上对评分流程进行监督,评分者在接受简单的培训后,各自为战,只有到评分结束后才能进行校对和复查。其次,在事后校对阶段,一方面要组织或安排专门人员对已评答卷进行复查或复核,复核量要达到一定比例以上,另一方面将每名评分者评分结果输入计算机,进行评分一致性分析,并对其评分结果进行相应调整,以控制评分误差。但是,这两种方法都是在全部试卷评完后才进行,而且,复核或分析调整的对象不是全部考生的答卷,只是部分考生的答卷,对控制误差的效果也只能做出定性的评价而不是定量的分析。因而,这种误差控制是不完整的、不彻底的。最关键的是,对于一些较大规模、高利害的考试来说,这种阅卷方式将会花费巨大成本,费时费力,效率和评分质量都很难保证。

近年来,在主观题评分领域新兴起了无纸化(网上)阅卷技术,它主要是利用高速图像扫描与识别技术、网络技术、大型分布式数据库及大容量智能化的网络存储等先进的电子技术和计算机技术进行辅助评分。在网上评分的过程中,可以采用多种技术手段对评分者的评分过程和结果进行实时监控,控制评分误差,准确预测评分进度。

网上阅卷技术除了可以确保考生的每道答题由每名评分者独立评阅外,对评分者个人与群体评分的一致性,个人与自身评分的一致性也提供了检验。对于群体评分一致性检验,计算机可以自动根据评分者的评分量返回一定比例的标准卷,监控评分者对评分标准的掌握;对于自身评分的一致性检验,计算机可以从每位评分者已评过的试卷中随时、随机地抽取一定比例的试卷返回重评,测定与原来评分结果的差异。网上阅卷系统还可以实现对每位评分者的阅卷情况进行实时监控,如记录每位评分者每道题的评阅时间,比较每个评分者给分的分数分布和整体的分数分布,了解个人和整体的评分进度等。既增加了评分者的责任心,又有利于及时发现和纠正问题,提高了评分质量。

2 研究问题的提出

无纸化(网上)阅卷技术为主观性试题评分过程带来了巨大的便捷。但在评分误差的控制方面,是否发挥了很好的效用呢?在采用无纸化阅卷技术之后,考试的信度受到了什么影响?特别地,在巨大的考试规模下无纸化阅卷技术是否会带来一些负面效应呢?这些都是本研究所关注的问题。

为此,本研究采用某年某大型人事考试笔试环节的考试评分数据进行分析。不同类别的考生各完成一张试卷,每张试卷各有5道大题(分别记为A卷和B卷),其中第1、2题每题满分10分,3、4题每题满分20分,第5题满分为40分。该考试的形式是考生先阅读几段材料,然后再回答不同的问题。不同的题目所考察的侧重点也有所不同。分别涉及到阅读理解能力,思维分析能力,问题解决能力,言语表达能力等方面。

考试的评分工作是一项庞大的系统工程。每一道题目均由不同的评分者进行打分。每道题目的评分者约有100~200人,共同集中培训3天左右,接着进入到为期10天左右的正式评卷阶段。对于如此大规模的评分工作,当前的网上评分系统体现出来一定的便捷。它主要采取试评、设置评分阈值(threshold),以及抽取试卷开展复评等方式对评分一致性加以监控。

本研究将深入讨论这项大规模主观性考试的评分情况,同时考察无纸化阅卷系统对误差的监控效果。

3 考试的评分分析

3.1 评分流程

在当前的评分流程中,所有的试卷均需要双评,通过设置评分阈值,即两名评分者之间的最大评分差异,来约束两名评分者之间的一致程度。目前该阈值为题目总分的1/5。根据这一阈值,评分类型可以分为以下几种情况:(1)12评:1评和2评评分者所给分数之差小于等于阈值,考生最终的分数为1评和2评的平均值;(2)13评和23评:1评和2评评分者所给分数之差大于阈值,但小于等于2倍阈值,此时需要介入3评评分者,考生最终的分数为相对比较接近的两个评分者所给分数的平均值,13评意味着1评和3评之间更为接近,2评分数被取消;23评同理;(3)1234评:在涉及到3评的试卷上,如果3评所给的分数与1评和2评之间的差异都大于阈值,则3评也不能决定最后的分数,则需要由专家组,也就是4评评分者进行打分,4评评分者的分数直接作为考生的最终分数,而前三评的分数全部取消;(4)124评:当1评和2评评分者所给分数之差大于2倍阈值时,说明该试卷在评分者之间分歧较大,此时无需3评,直接由4评专家评分者打分确定考生最终的分数。网上评卷系统可以很好地管理上述的评卷流程,试卷被随机分配给评分者,评分者独立地进行打分。需要说明的是,一般评分者同时充当着1评、2评或3评的角色;而4评则是由专家构成,他们对有分歧有争议的试卷具有最终裁定权。每位评分者的采纳率是描述评分者打分质量的一个指标,采纳率越高,说明该评分者与其他评分者之间一致的比例越高。当前的网上评分系统会随时监控评分者的采纳率情况。

3.2 基本情况分析

3.2.1 评分类型汇总

表1中呈现了该考试中各种评分类型的数量以及所占比例。从表中可以看到,12评的比例占了绝大多数,平均占到试卷总数的95%左右。在非12评的评分类型中,13评和23评的比例基本上都远大于124评和1234评的比例。这一结果可以说明在当前的评分中,评分者间在95%左右的试卷上的评分是一致的,均控制在了阈值范围之内。

3.2.2 考生得分分布

各个题目上考生的得分情况见表2。由于每道题目上都会有几万名考生的成绩是0分,这对得分的平均值和标准差有很大的影响。为此,表2中呈现了各题去掉0分后考生的平均得分和标准差。

不难发现,各题上分数的分布呈现出严重的正偏态趋势和集中趋势。首先,各题的均值普遍偏低:只有个别题的平均分略超过满分的一半,很多题目的平均得分仅为满分的四分之一到三分之一。尤其是A卷的第2题,平均分仅为2.33分。究竟是题目过难,还是评分过严,抑或是其它的原因造成,需要后续的进一步分析来加以探究。其次,各题的离散程度普遍偏小:例如在满分为20分的题目上,大多数标准差仅在1~2分之间,最高值也不过2.02分。这说明所有考生的得分十分集中,考生的得分并不具备良好的区分性,或者说分数量尺并未被充分利用,按照正负2个标准差计算,几乎所有考生的得分都集中在一个仅有5分的分数区间上。换句话说,20分的一把分数量尺,仅有其中的5分在发挥主要作用。导致分数如此集中的原因究竟与评分环节有什么关系,后面会进一步阐释。

进一步分析被取消试卷的情况发现,被取消的分数在高分段占比更多,分值越高,被取消的比例也越高。这一趋势很明确地指出,在当前的评分过程中,原本在高分段所打的分数就比较少,还有相当一部分被取消了,总体上高分大部分受到了抑制。

3.2.4 宽严打分试卷分析

为了进一步确认上面的结果,分别对非12评中各种评分类型的宽严度进行分析。前面提到如果1评和2评的差值超过阈值,则说明一位评分者评分比较宽容,而另一位评分者评分比较严格。在非12评的各种评分类型中,若3评或4评评分者也采用比较宽容的评分策略(即其分数比前两评中的最高分还高),则这个考生的分数就会被提高,我们将这种试卷称为“宽宽试卷”;若3评或4评评分者采用了比较严格的评分策略(即其分数比前几评中的最低分还低),则这个考生的分数就会被压低,我们将这种试卷称为“严严试卷”。表3中呈现了每题各种评分类型上“宽宽”和“严严”试卷的比例。

从表3中可以看到,在各题上“宽宽”试卷的比例与“严严”试卷的比例相当,而介于前几评最高分和最低分分数之间的“居中”试卷比例最高。由于3评、4评在打分时也是独立进行的,他们在打分时并不知道前几评所给的分数,因此这一趋势可以很好地揭示这样一个事实:对于那些差异较大的试卷,很难通过进一步的审核和重评环节使分数有进一步提升,它们基本都被调整回到了均值附近。此外从表3中还可以看到,对于13评和23评来说,即使3评介于前两评分数之间,平均来看,与低分更接近的比例也略高于与高分更接近的比例,这也是为什么一些较高的打分很大比例都被取消掉的缘故。总之,通过宽严试卷的分析可以知道,在独立评分过程中,如果每名评分者都倾向于保守,那么即使是潜在的高分试卷,也很难被留存下来。

3.2.5 评分的变化趋势分析

本部分分析了评分随时间进程的变化。平均来看,每名评分者要在连续8~10天内,评阅几千甚至上万份试卷,评分工作随着时间的推移会变得越来越辛苦。同时,随着时间的推移,评分者对评分标准的掌握可能会越来越熟练,但是对考生做答的新鲜感受也会逐步减少,评分可能会陷入到刻板化的模式当中,这些因素都会给评分带来一定的影响。下面的图3和图4中呈现了所有打分的平均值和标准差随时间的变化趋势(每一个时间段为半天)。

从图中可以更加直观地看到,在评分均值方面(图3),各题均值都或多或少地随着时间的增长而减小,虽然有些时段之间出现波动,但总体呈缓慢下降的趋势,下降的幅度并不大。但由于各题均值本身并不高,因此即使下降幅度较小,也是值得关注的。并且,相比满分为10分和20分的题目来说,满分为40分的题目在各时间段上均值的波动更加明显。在评分标准差方面(图4),除个别题目外(A卷第5题),各题的标准差也随时间缓慢下降。同样,满分为40分的题目在各时间段上标准差的波动更加明显。总之,随着阅卷时间的延长,评分呈现出越来越集中,越来越严格的趋势。

3.2.6 评分者的采纳率

每名评分者在评分过程中并不能保证所有的打分都被采纳,如果他与其他评分者的评分差异过大,或者不一致,那么他的评分将不被采纳。因此每名评分者的采纳率可以反映出他与其他评分者之间的一致程度。表4中呈现了各题上评分者的平均采纳率情况。

从表4中可以看到,各题上的平均采纳率均处于较高的水平,都达到了95%以上,最小的采纳率也超过了90%。如果仅从采纳率这一个指标来看,评分者间的一致性还是比较理想的,并且采纳率在不同的题目上并未呈现出明显的差异。在后面进一步的分析中,可以发现,评分者的采纳率实际上被高估了。

4 对当前误差监控效果的探讨

4.1 评分的保守现象

纵观前面的资料分析结果,不难发现这样一个现象,那就是分数的高度集中。从考生的得分来说,分数仅仅集中在某一个全距很小的区间上,考生之间的差异很小,考生的能力并不能被很好地区分。从评分者的打分来看,绝大部分的评分只涉及到几个分值,打分相当保守,评分者轻易不会给高分。分数全距缩小降低了主观性试题的效用。主观性试题相比客观性试题最大的优势在于它能够激发考生更多方面的能力素质,给考生充分的空间展示各方面能力,给评价者更多的角度去评价考生。但如果评分仅仅局限在有限的尺度上,则削弱了这种主观性,或者说掩盖了考生的差异。

分数集中现象背后的直接原因是评分者打分保守。评分者不敢贸然给考生高分或低分。现实情况是,即使考生的做答被评价为相对的“极端”高分或低分,也会被当前的评分机制调整成“中庸”的分数。前面的宽严试卷分析就很好地证明了这一点。如果某一名评分者发现了一份做答比较好的试卷,他可能会打出高分,但是由于其他评分者都更倾向于打保守分,因而前两评的评分会相差较大,于是需要3评进行重评。而3评也在很大程度上倾向于打保守分,这样一来,考生的分数不仅被限制在较低的分数区间上,而且所打出的极端分数还会被取消。如此下去,那些倾向于不打保守分的评分者的采纳率便会变得很低,这又是误差监控所不希望的,于是这名评分者会被慢慢地同化,他只能通过打保守分来适应这种监控模式。由此看来,保守很可能是一个习得的过程,“越保守,越安全”,这是当前误差监控流程中不可忽视的问题。

显然,这种保守的打分对高素质和高能力的考生是极为不利的。高能力的考生在题目上的做答更倾向被评为高分,但并不一定前两评的评分者同时认为这是一个高水平的做答,于是评分就会按照刚才所叙述的过程发生,高能力考生的分数就会被压低。从前面的分析中也可以看出,在被取消的分数中,相当一部分的分数处于高分段。因此可以说,能力越高的考生,越容易被压低分数。这与考试择优的初衷是相违背的。

此外,分数集中现象还呈现出随评分时间的延长而加剧的趋势。这也可以很好地证明评分保守是“习得”的。在评分初期,评分者对评分标准的掌握还并不十分透彻,因此不同试卷的做答对于评分者来说是个新鲜的刺激,评分者会相对“忠实”于评分标准,评分的区分度也还比较理想。但随着时间的推移,在评分的中后期,评分者可能已经比较疲劳,不愿再投入过多的精力去对考生的做答加以细致地区分,而是采取保守的方式打一个比较安全的分数,这个分数不会与他人有太大的差距。这样一来,评分的标准差越来越小,评分的均值也越来越低,虽然变化趋势缓慢,但是每道题目上几乎都出现类似的问题,这便比较有说服力了。4.2 阈值的设置

当前对评分的监控是通过网上阅卷系统实现的,该系统设置了阈值,评分者的一致性是在一定条件下的一致性,这个条件便是阈值的大小。类似地,能衡量评分者评分水平的一个指标是评分者的采纳率,而这个采纳率也是有条件的,采纳率的大小与这个阈值的大小是息息相关的。可以说,阈值的设置直接决定了我们对评分一致性的判断,以及对不合格评分者的监控。然而,遗憾的是,当前的阈值可能并不能真正地控制评分的差异。

究其原因,当前阈值的设置是存在问题的,它没有很好地起到控制评分误差的作用。具体来说,对于一道满分为20分的题目,当前的阈值为4分,占全距的五分之一。而目前评分的最大问题是全距缩小了,90%以上的分数可能仅仅局限在7~8分的区间上。但目前仍采取4分作为阈值,于是评分者只要将分数打在某一区间,是很安全的,他的打分很难被取消,几乎不可能进入到3评。例如,当前满分为20分的题目的评分分数为3~10分左右,如果评分者大部分只打5或6分,则是十分保险的做法,评分者彼此之间永远不可能有4分的差异,即使有也是相对来说极个别的情况,被取消也根本不会很大程度影响到该评分者的采纳率。满分为40分的题目情况与此类似。

因此,只要评分者在某一区间打保守分,他的3评率就会降低,并被系统认为是可信的。评分者摸索这个“潜在评分规律”可能需要一定的时间,一旦找到这个规律,评分就会陷入到越来越保守的境地,这也解释了评分者随着时间的延续,评分均值越来越低、标准差越来越小的缘故。显然,当前阈值的设置是存在漏洞的,评分者之间的一致性也被高估了。

4.3 误差监控的滞后性

前面指出,评分者打保守分是因为“习得”了评分过程中阈值设置的漏洞。评分的保守使分数的全距缩小,造成分数集中,而反过来,集中趋势又会进一步促使评分者打保守分,这是一个恶性循环的过程。

其实当前网上阅卷系统也对评分者评分的离散程度进行了监控,目的就是防止评分过于集中,但实际上监控的效果并不理想。从误差监控的角度来说,既不希望分数特别分散,也不希望分数特别集中,过于分散可能意味着评分者自身评分标准前后掌握得不一致,而过于集中则意味着评分的保守。为此评分系统会在评分过程中对每一名评分者的分数分布与总体打分的分数分布进行对比,以发现在某一时间段内,评分者的分数分布是否与总体的偏差较大(见下图5)。然而,这种对比的前提假设是,总体的分数分布是正确可信的。而实际上这个假设很可能不成立,当每一名评分者都打保守分时,总体的分数分布也会更加集中,离散程度会进一步降低,这样便无法辨别出个体与总体的差异。换句话说,当总体的分数分布因为个体的分布累积而变得不再可靠时,这种监控方式便不再奏效。同时,更为严重的问题在于,这种分布的对比需要在个体和总体分别评过一定数量的试卷之后才可以进行,只有积累到一定数量,分布才能稳定,才有可对比的意义。这一累积的过程导致了监控的滞后,即这种监控方式不能及时发现打分的偏差,而只能通过事后的、宏观的分析来寻找与总体打分分布不同的评分者,这种滞后性使监控变得低效,失去了监控的意义。

此外,这种监控方式还存在另外的漏洞。评分者只要在每几百份试卷中,给出一两个高分,即可把评分的标准差人为地升高,这样也不太可能被鉴别成为保守的打分者,同时也更倾向于符合总体的分布。即使这一两个高分被取消,采纳率也在可以接受的范围内。

综上,当前的误差监控系统除了存在一定的漏洞之外,还存在一定的滞后性,它对当前评分过程中的误差并不敏感,监控效率较低,监控效果也不甚理想。

4.4 造成评分保守的深层原因

造成评分保守、分数集中现象的深层原因是当前对评卷质量的评价体系存在一定的漏洞,即过多地追求评分一致性而忽略评分的准确性。这不仅错误地决定了阈值的大小,还影响了评分者的行为。当前的监控机制是基于“多数人肯定是正确的”的假设,评分者在这种机制下会“习得”变成“多数人”去追求一致——他们不愿让自己的评分被视为无效,当他们作为“少数人”所进行的评分都被取消时,他们便会加入到“多数人”的行列之中去(丁文,裴赟,2008)。这种“从众”导致“个性”的丧失,于是高分考生急剧下降,考试的区分度也由此下降。虽然当前的网上阅卷系统能够给评分的监控带来巨大的便利,但一旦当监控存在漏洞,那么所造成的偏离和风险也是很严重的。

此外,对于如此大规模的主观评分,势必会涉及到大量的评分者,因此统一评分者之间的宽严尺度,培训评分者掌握评分标准成为了巨大的挑战,也是误差控制环节的根本。然而,为了能够让如此庞大规模的评分者队伍保持一致,必然会将标准答案设置得更为严格甚至死板,评分标准设置得更具可操作性但缺少灵活性,只有这样,评分者才能很快地掌握,才能使用最少的认知资源通过最快的速度进行评分,以提高效率。换句话说,评分者的主观性和灵活性越少越好。但是,考生的做答是多种多样的,在设置标准答案和评分标准的时候,是不可能穷尽所有情况的。于是,严苛的评分标准和多样的做答之间便会产生矛盾,在巨大的评分效率压力下,目前的做法是重视评价的一致性,而轻视评分的准确性和考试的区分度,这种做法看似“公平”,实际上损害了考试的功效。

5 误差控制的优化

为了更好地改善当前的局面,最大限度地发挥考试的功效,需要对误差控制过程进行优化和完善。主要从两个方面入手,一是在现有的阅卷和误差监控流程基础上进行优化;二是从长远的角度考虑,对当前的阅卷和误差监控流程进行改革。本部分主要从理论上进行讨论。

5.1 优化误差监控的指标

当前评分最大的问题在于评分者打分趋于保守,这种保守不仅体现在评分过低,也体现在评分的离散程度较小,全距较小。而当前的评分系统只是通过对比每一评分者与整体之间的分布曲线来鉴别打分出现偏差的评分者,这种方式并不科学,当整体打分发生系统性偏差时,监控便会失效。因此,需要设置一些指标来监测评分者的保守打分。一方面可以通过评分者打分的标准差来表示评分者打分的离散程度,一方面可以通过在某一区间打分的数量占总体打分的比例来确定分数是否集中在某一特定的全距上。当标准差较小,且在某一区间内的打分数量过多时,表明分数过于集中。同时,可以根据评分分布随时间的变化趋势来时时监控不同时间段内的打分情况。

此外,还需要将被取消分数的分布情况纳入到这个监控系统当中,如果比较离散的分数大量地被取消,一方面可能是因为评分者为了规避监控系统而有意打出离散的分数,另一方面可能是由于评分者群体整体打分保守所致。因此,还可以通过监控不同分数段上被取消和被采纳分数的比例来判断评分是否保守,例如,如果在高分段大量的分数都被取消,而在中低分段,大量的分数都被保留,这说明当前的评分很可能是保守的。

5.2 优化阈值的设置

为了有效控制评分者的采纳率被高估的情况,需要根据评分的全距,而非满分的大小来调整评分的阈值。这个阈值既界定了评分者间的一致性程度,同时也影响着评分的效率。如果阈值设置过大,则很可能将不一致的评分误判为一致,但如果阈值设置过小,则很可能有大量的试卷需要3评甚至4评,这将加大评分的工作量。更重要的是,这个阈值还会影响评分者的行为,一旦设置不合理,评分者很可能找到漏洞,形成保守的打分风格。

那么究竟如何界定两评之间是否存在统计上的显著差异,或者说评分者之间是否一致呢?这个问题的答案其实并不由阈值的大小决定。有研究表明阈值的设置与评分一致性并无直接的关系(雷新勇,周群,2006)。该研究的结果显示,阈值的高低并不是决定两评之间评分误差大小的直接因素,而两评之间差值(非绝对值)的分布才是决定两评之间差异显著性的重要因素。这个差异的显著性通常被认为是评价评分者一致性的一个指标。然而,这个12评差异的分布是没有规律的,因为1评和2评分别是由不同的评分者独立打分,各自的分布可能趋近于正态,但是差值的分布则没有明确的规律。因此,评分者之间真正的一致性,是不能通过阈值的大小来直接控制的。

设置阈值的意义更多地体现在影响评分者行为方面,设置阈值实际上是一个调控的手段。前面分析中指出,评分者会根据阈值来调整自己的给分策略——这个阈值越大,给保守分越安全;这个阈值越小,评分者需要投入更多的精力,更认真、更仔细地去鉴别考生的做答,这样一来,评分的误差自然会相应减少,从而达到了控制评分者误差的目的。

5.3 实时的监控手段:标准卷

当前的误差监控面临着一个巨大的挑战,那就是监控相对滞后。评分者所打分数的分布、总体的分数分布、评分者的采纳率等指标,均需要有大量样本后才会稳定下来。当所评的试卷数量较少时,分布尚不稳定,我们很难推断是由于评分者的误差,还是由于试卷样本的抽样误差,造成了个体与总体分数分布上的差异。这种滞后性意味着在评分初期,各种指标均不敏感。另一个问题是,当评分稳定后,如果发现某名评分者评分有问题,也只能让他在后续的评分中加以注意,而很难去检查和纠正他之前所有评判的试卷,这对一部分考生也是不公平的。此外,即使评分趋于稳定了,我们也很难控制评分者自身的随机误差。

归根结底,当前误差监控的问题在于过度追求评分的一致性,而忽略评分的准确性。要弄清评分者的误差到底有多大,不能寄希望于评分者与总体之间是否保持一致,最理想的手段是知道他所评试卷的真分数是多少。评分与真分数的差异,才是评分者的误差。

为此,可以在误差监控过程中加入标准卷。所谓标准卷是指由命题者或制定评分标准的专家组所评价的试卷。由他们所给出的分数或者分数范围可以很好地体现评分标准,也可以近似地认为是考生的“真分数”。将一定数量的标准卷安插在评分者的正评之中,即可实时地检验出评分者的评分与这个“真分数”之间的差异,从而了解每名评分者的误差大小。此外,标准卷还可以很好地探测到评分者的打分趋势,如果评分者的打分总是低于标准卷的分数,则表明该评分者可能出现了打分保守的情况。

由此看来,标准卷可以帮助我们更好更直接地监控评分者的误差,既可以监控评分者的宽严程度,也可以监控评分者的打分趋势。这种监控是相对实时的监控,不会受到整体打分分布的影响,也不会受到所评试卷抽样偏差的影响。

5.4 评分流程的改革初探——分步评分

源于评分者的评分误差很多情况下与其不能很好地掌握评分标准有关,他们评分过程中的认知负荷过大,对评分标准不同等级的区分比较模糊,从而造成了评分中的误差,甚至他们为了减小认知负荷,采取保守的打分策略(Gilfert & Harada,1992)。为了解决这个问题,很多研究者曾提出过一些明确评分标准、提高评分标准区分度的方法。但对于很多大规模的主观性考试来说,有一个矛盾摆在面前:一方面试题对考生综合素质要求较高,评分标准不宜也不可能限制得过于死板,但另一方面这种灵活的评分标准势必会给评分工作带来巨大的认知负担,评分者对评分标准和尺度也难以达成统一并保持一致。

Penny等人(2000)在实证研究中尝试了一种评分增值(rating augmentation)的方法,在评分时,首先在一个比较宽的量尺上对试卷进行打分,如1~4分,每一个等级有对应的标杆卷(benchmark),评分者需要首先判断的是该份试卷与哪份标杆卷最为接近。接着评分者再进一步判断该试卷的倾向(lean),如该试卷是更优于还是更劣于标杆卷,并给出附加的分数,以“+”、“-”表示,于是该试卷的得分为3+或2-这种等级的形式,最后再将这种得分转化为数值。

增值评分,实际上是一种分步评分的过程。它可以以两种形式展开,一种是让同一评分者先后完成宽尺度评分和增值评分的过程,一种是让一批评分者先进行宽尺度评分,再让另一批评分者对已经分好等级的几批试卷进行增值评分。这两种形式的区别在于,前一种评分需要评分者在头脑中切换评分尺度,无疑与之前采取的评分方式相似,可能不能发挥分步评分的优势;而后一种评分形式可以同时确保评分的一致性和区分性。对于根据宽尺度分好等级的试卷,在同一等级内的倾向性可以继续采用相对较宽的尺度进行衡量,如1~5分,这样评分者仍可以很容易地对试卷进行区分。举例来说,评分的第一阶段将满分为20分的作文分为4个等级,评分者只需打1~4分(如2分),在评分的第二个阶段,评分者再将同为2分的试卷重新在1~5等上进行评分(如4分),这样这份试卷的最终分数为2.8分,转化成20分满分后便为8分左右。

6 研究结论

对于本研究中所分析的主观性考试来说,从整体上看,当前的网上阅卷系统在控制随机误差、提高测量信度、控制评分者评分一致性方面都取得了一定的效果,但这背后仍存在着潜在的风险。主观性考试的特点决定了其功能定位在择优上,然而一系列原因导致了其择优的功能并未能得到充分的发挥。

第一,从评分者方面来看,目前参与阅卷工作的评分者之间的一致性是比较令人满意的。但评分者的打分普遍比较保守,因此当前较理想的一致性可能被高估了。

第二,从评分误差方面来看,目前的网上阅卷系统在一定程度上较好地控制了各种因素造成的误差,然而也存在一些监控盲区,导致评分全距缩小、分数集中等问题,同时监控存在一定程度的滞后。

第三,从评分标准设置原则方面来看,目前的评分标准设置原则需要考虑可操作性、是否结合材料以及“择优”倾向,这一点从实际阅卷工作考虑是有其存在合理性的。但是这些原则可能带来一些风险,如评分标准很可能朝着刻板化、模式化的方向发展,削弱了考试主观性和灵活性的灵魂,那些具有创新性和独特见解的考生不易在这种评分规则下得到和实际能力相符的高分。

第四,从公平性与评分效率方面来看,考试的公平性主要体现在流程的“无懈可击”之上,而真正意义的公平还做得很不够,对优秀考生存在着某种程度的“不公平”。此外,由于近几年考生人数激增,这势必给阅卷工作带来很大的压力。一方面评分者增多需要花费大量的人力物力财力,另一方面每个评分者单位时间内需要评阅的试卷份数也会加大,这使评分者难以对试卷进行充分评价。从这个角度看,当前网上阅卷方式的评分效率还有待提高。

参考文献

丁文,裴赟.(2008).评分趋中性现象的初步分析.中国考试(研究版),8,14-18.

丁琳.(2003).基于互联网的网上阅卷系统的设计和实现.硕士学位论文.华东师范大学.

雷新勇,周群.(2006).基于局域网评分中阈值设置和评分一致性研究.考试研究,4,64-75.

张昌应.(2003).高考网上评卷误差控制的方法与实施.高教探索,3,77-79.

Gilfert,S.,& Harada,K.(1992).Two composition scoring methods:The analytic vs.holistic method.Bulletin of Faculty of Foreign Languages,1,17-22.

Hidi,J.C.,& Mclaren,L.(1990).Topics and writing.Studies in Educational Evaluation,16,515-518. Lane,S.,& Stone,C.A.(2006).Performance assessment.In R.L.Brennan (Eds.),Educational measurement(pp.387-431).Washington,DC:American Council on Education.

Lumley,T.(2002).Assessment criteria in a large-scale writing test:what do they really mean to the raters?Language Testing,19,246-276.

McNamara,T.F.,& Adams,R.J.(1991).Exploring rater behavior with rasch techniques.Paper presented at the annual Language Testing Research Colloquium.March,Princeton.

McQueen,J.,& Congdon,P.J.(1997).Rater severity in large-scale assessment:Is it invariant?Paper presented at the annual meeting of the American Educational Research Association.March,Chicago.

Penny,J.,Johnson,R.L.,& Gordon,B.(2000).The effect of rating augmentation on inter-rater reliability:An empirical study of a holistic rubric. Assessing Writing,7,143-164.

The Mechanism of Conservativeness in Subjective Performance Rating

Wang Bo1,Bian Ran2,3,Che Hongsheng2,3,Wang Rong4

(1.Department of Educational Psychology,Faculty of Education,the Chinese University of Hong Kong,Hong Kong 999077;2.School of Psychology,Beijing Normal University,Beijing 100875;3.Beijing Key Lab for Applied Experimental Psychology,Beijing 100875; 4.Beijing Personnel Testing Authority,Beijing 100036)

Abstract:This study analyzed one large-scale personnel selection writing test.The results showed that the SD of scores on each item was small,which meant that the examinees’ abilities could not be well-distinguished.The raters tended to give lower and concentrate scores due to their conservative strategy.Meanwhile,the shortened range of scores lowered the efficacy and effectiveness of those subjective items.It is also found that the means and SDs decreased along with the rating progress,which might imply that the conservative scoring was an acquisition process.In order to regulate this conservative scoring,to guarantee the consistency of scoring,and to improve the accuracy of scoring,the benchmark scoring paper can be inserted to monitor the rating processes and errors,or a multistage rating augmentation pattern can be used to control the process.

Key words:subjective performance rating;conservative scoring;error control