开篇:润墨网以专业的文秘视角,为您筛选了一篇计算机自适应英语测试系统的研究及设计范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘要:介绍基于项目反应理论的计算机自适应英语测试系统的理论基础、设计思想以及在英语测试中的设计与实现。
关键词:CAT;IRT;项目反应函数
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)26-6447-02
随着科技的飞速发展,当今世界已由工业化时代步入信息化时代。为了顺应时展的要求,教育部大力改革大学英语教学,推动基于计算机网络的英语教学改革,与此相适应的大学英语考试也逐步向着计算机自适应测试方向进行相应的改革。
目前国内大部分高校的英语测试采用的是传统的纸卷考试形式,在实施传统考试时无法用科学的方法测得学生的实际英语能力水平,同时组织管理考试过程中也存在不少困难。所以将计算机自适应测试引入英语的测试模式中,是英语测试未来的发展趋势。现在世界上一些发达国家已经普遍采用了计算机自适应测试CAT(computerized adaptive test)来代替传统的纸卷笔试。
1 计算机自适应英语测试
计算机自适应英语测试(Computerized Adaptive Testing System,简称CAT),是一种新型的测试方法。它能根据考生答题的情况不断计算受试者的能力值及信息量,并实时地根据这些参数调整出题策略,最终给受试者一个恰当的评价。简言之,CAT在做测验时,先从题库中选取一个试题实施测试,如果受测者答对了就选取一个较难的题施测;如果受测者答错了就选取一个简单的题目再施测;不断重复测验过程,一直到受测者的能力被精确估计出来为止。CAT的优点就在于其测试手段的现代性、试题的标准性、测试方法的适应性。最近几年CAT在测验理论研究及实践的应用中取得了引人注目的发展,国内外对CAT的应用有很多成功的例子,如HSK(中国汉语水平考试)、GRE、TOEFL等等。
2 计算机自适应英语测试的理论基础
计算机自适应英语测试是建构在20世纪50年展起来的现代测验理论――项目反应理论(Item Response Theory,简称IRT)――基础上的一种考试方式。
项目反应理论(IRT―Item Response Theory)是对传统测试理论的发展,它被广泛地用来分析在测试中得到的题目反应数据,将题目放在同一个量表上,这样题目便不会因难度不同和考生不同而受到影响。IRT最大优点就是,项目参数的估计值与被测试者样本的选择无关;对被测试者能力水平的估计值与施测所用试题无关;同时还能给出测验项目对被测试者实际能力估计值的精度。所以IRT适合作为计算机自适应英语测试系统的理论基础。
用项目反应函数来描述项目反应模型特性,如式(1)。
(1)
项目反应函数描述的是考生的答对概率P(θ)与项目的质量参数a、b、c及考生特质水平θ在数值上的关系,图1表明了这种关系。
IRT认为个体的潜在特质与测量该特质的项目反应之间存在一定的函数关系,p(θ)是随着θ的增大而增大,当θ大到一定程度以后,p(θ)就趋向于1。IRT就是要研究p(θ)与θ之间的这种函数关系,并用一定的数学模型来反映这种关系,以此作为系统设计的基础。项目区分度a,即曲线拐点处的斜率。斜率越大特征曲线就越陡峭,考生的能力水平θ稍有不同,答对题目的概率就有很大变化,即题目的区分能力也就越强,它用于精确界定题目是否能够真实反映考生的能力,区分度越高,题目质量越高。项目难度b,即项目答对概率P(θ)=0.5所对应的特质参数θ值;项目猜测参数c,即特征曲线的截距。其值越大,表示越容易猜对本题。
3 计算机自适应英语测试的设计
CAT是在以IRT理论为基础建立的题库之上,不断地根据题目的各个方面信息和受测者的答题情况估计受测者的能力,然后从题库中选取符合受测者能力的题目进行测试,直到达到预定的测试精度要求,即可结束考试。整个测试过程设计如图2所示:
4 计算机自适应英语测试系统设计中应考虑的问题
4.1 系统题库的建立
题库的建设是计算机自适应英语测试系统开发中的重点,其设计的优劣将直接影响系统的运行。
本文研究的系统被设定为英语测试用,因此建立题库的一个最直接的办法就是把历年的考试试题信息及相应的学生考试情况作为数据资料,用联合最大近似值估计法估计各题的参数;另外还可由教师编写试题,进行一定范围的实测后,用反馈的测试结果用来对试题各种参数进行评估。目前已有数种专门对试题进行分析的计算机程序问世,只要输入相关数据资料,便可获取受测者的能力值与试题参数的估计值。目前国内英语教学研究普遍使用的项目分析软件Gitest是广东外贸大学自主研发的项目分析软件,能较好地处理特异情况,避免极端的估计值出现。
4.2 考试终止条件
本文采用固定测验长度的考试终止方法。当施测项目数累加到预设测验长度值时即行停止,这叫固定长度计算机适应性测验。其好处是有利于公众接受,便于推行。但测验长度固定,会造成有些被试在恰当估出能力水平后还要额外增加作答,而另一些被试不能通过这个预先确定的测验长度测出与其能力相当的估计精度。一般说来,能力分布位于两头(很低或很高)的被试测试所得精度会低于能力分布位于中间的被试。对不同被试的特质参数的估计精度不同,要确定一个合适的长度一般来说并不容易,通常做法是设定一次适应性测试的题数为30~50题,测试时间根据需要而定,一般设为30~100分钟。
5 后记
计算机自适应英语测试将是今后英语测试设计的必然趋势,本文所论述的系统中使用的适应性考试模型是一个简化的模型,英语适应性考试的组卷策略和最后成绩的评定计算法要达到更高的测量精度,必须建立更复杂的模型,还需进一步研究。
参考文献:
[1] 黄莉,马光志,陈爱菊,等.远程教育中计算机自适应考试系统的研究和实现[J].湖北教育学院学报,2001,18(2).
[2] 曾用强.个性化自适应性测试探索[J].外语教学与研究,2002,34(4).
[3] 陈专红.基于J2EE的计算机化自适应考试系统设计[J].计算机时代,2006(4).