首页 > 范文大全 > 正文

例析Rasch模型在化学试卷质量分析中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇例析Rasch模型在化学试卷质量分析中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:化学测试是化学课程实施的重要组成部分,对测试试卷质量进行客观、科学的分析具有重要意义。客观、等距性的rasch模型在试卷质量分析应用中显示出传统测量模型不具备的优势。以某市一次中考化学模拟试题分析为例,从Rasch检验指标及特征量、试卷整体质量、单维性检验、拟合度、测量误差检验和被试水平与项目难度匹配性检验五个方面阐述了Rasch模型在化学试卷质量分析中的应用,并讨论了应用过程中应注意的问题。期望为一线教师进行试卷分析提供新的技术参考。

关键词:Rasch模型;化学测试;试卷质量分析

文章编号:1005C6629(2016)11C0014C06 中图分类号:G633.8 文献标识码:B

化学测试是化学课程实施的重要组成部分,为教师改进教学方法、调整教学内容提供基本依据,是学生自我检验、查漏补缺的有效途径,在化学教学过程中扮演着教学质量监控和教学效果诊断等角色。因此,如何对化学测试试卷的质量进行科学、客观的分析具有重要意义。

当前,试卷质量分析主要以经典测试理论(Classical Test Theory)和项目反应理论(Item Response Theory)为理论指导。经典测试理论从上世纪初问世以来,经过百年来的发展、完善,已形成了包括信度、效度、难度、区分度、标准差、平均分等在内的一系列项目分析指标。项目反应理论作为经典测试理论的继承、发展,也将信度、难度等作为分析指标。Rasch模型作为一种以项目反应理论为指导的非线性概率模型,在应用该模型进行试题分析时,首先要对试题与模型的拟合性以及试题单维性进行检验,且Rasch分析的质量指标给出的特征量也不同于经典测量理论中的指标特征量。

Rasch模型具有客观、等距的测量优点,因此自提出以来已经被广泛应用于心理学、健康学、经济学、社会科学等不同领域,但在中小学试卷质量分析中的应用研究还较少。本文以某市一次化学中考模拟试卷质量分析为例,探讨了Rasch模型在化学试卷质量分析中的应用,以期为一线教师进行试卷质量分析提供新的技术参考。

1 Rasch模型简介

Rasch模型是丹麦数学家、心理学家、教育家George Rasch于1960年提出的一种测量模型。该模型成功克服了传统测量中项目难度与被试水平估计之间相互干扰的问题,使测量不再存在工具依赖和样本依赖,从而使测量的结果达到客观等距。模型的数学表达式如下:

其中Pni为被试n答对项目i的概率,Bn为被试水平,Di为项目难度。当Bn=Di时,被试n答对项目i的概率值为0.5,当被试水平远远大于项目难度时(Bn>>Di),被试答对概率值趋近于1,相反,概率值趋近于0。Bn与Di单位相同,可加减,换言之,Di为客观等距尺[1]。模型将被试能力水平与项目难度放在同一等距尺上,这决定了其Wright图(怀特图)可以直观、简洁地进行被试与被试、被试与项目、项目与项目之间的比较分析。

随着验证Rasch模型应用软件的不断开发完善,国内外学者对该模型在教育领域的应用研究也不断深入。著名物理教学研究者Maja Planinic利用Rasch模型进行了力学概念测试的评价[2]。我国利用Rasch模型对全国大学生英语四六级考试(CET4/6)进行分数等值化已有二十多年,且效果较为理想[3]。王蕾在利用Rasch模型对PISA(Program for International Student Assessment,国际学生评估项目)试题进行分析的基础上,讨论了Rasch这种客观等距测量量尺对完善我国教育评价及心理测量的参考价值[4]。也有学者利用该模型的DIF(Differential Item Functioning)检验功能进行了一些相关关系研究,比如分析教师对学生自主学习支持程度与学生化学学习的相关关系[5],学生化学学科能力与性别差异的关系[6]。除此之外,Rasch模型还被用于认知表现水平评价研究、题库建设、试卷设计、学习进阶研究等方面,但多数研究仍停留在理论分析层面,较少将该技术用于中小学试卷的质量分析中。

2 研究方法

笔者于2016年6月对某校参加市中考模拟的全体初三年级学生进行了整群取样,样本人数为199,运用Winsteps3.72.3软件对其化学成绩进行了数据处理与分析,在此基础上讨论了Rasch模型在化学试卷质量分析中的应用以及在应用过程中需要注意的问题。

本次化学测试试卷分为选择题与非选择题两个部分,选择题共10个题目,非选择题共17个题目。其中非选择题又分为物质推断题、实验题和化学计算题,物质推断题和实验题均以填空形式呈现,共计14个题目,化学计算题为3个题目。为满足Rasch模型分析要求,将整套试题所有27个题目均采取二级记分,答对记1,答错记0。利用Excel进行数据初步处理之后,将数据转化为Winsteps3.72.3导入格式导入并分析。

3 运用Rasch模型进行试题质量分析

3.1 Rasch检验指标及特征量

Rasch模型使用根据残差计算的两个卡方拟合检验指标MNSQ和ZSTD进行拟合度检验,其中ZSTD是MNSQ的标准化形式。理想拟合情况下的MNSQ值为1,MNSQ值在0.5~1.5之间表示数据与模型预期拟合程度可接受[7],理想拟合情况下ZSTD值为0,当ZSTD值介于-2~2时,可认为拟合较好[8]。单维性检验指标的特征量是项目分数与可能影响因素的相关关系值,当该值介于-0.4与+0.4之间时,认为对应项目符合单维性要求,Rasch模型可对该项目进行准确分析。本研究涉及到的质量检验指标包括信度、分离度、难度、被试及试题分布。信度是对试卷测试结果一致性、可靠性、稳定性的描述,特征量Reliability大于0.70表示具有较高可信度[9]。分离度是对试题区分度的描述,分离度越高,表示试题对不同水平被试的区分度越高,特征量Separation大于2表示试题具有较高区分度[10]。Rasch模型将试题难度与被试能力水平高低放在同一量尺上,用Logit值表示难度大小与能力水平高低,在怀特图中Logit值自上而下减小,表示题目难度降低、被试能力水平降低[11]。不同能力水平被试及不同难度试题是否呈正态分布或近正态分布可以从怀特图中直接观察出,无需对特定参数进行数值分析,这也是Rasch模型的直观优势。

3.2 整体质量检验

利用Winsteps3.72.3软件对199名学生的数据进行整体质量检验,结果如图1所示。检验结果显示试题及被试的MNSQ和ZSTD值均十分接近理想值,与模型拟合较好。学生整体信度(Kid Reliability=0.81,>0.70)、试题整体信度(Tap Reliability=0.97,>0.70)均较高。项目分离度(Tap Separation=5.89,>2)显示试题能够对不同能力水平被试加以区分。

3.3 单维性检验

Rasch模型是一种参数项目反应理论(Parameter Item Response Theory,P-IRT)模型[12]。项目反应理论建立在单维性假设的基础上,即被试在特定项目上的表现可归因为单一变量(知识、能力、人格特质等),其他因素对被试表现的影响可忽略[13]。因此,单维性检验是运用Rasch模型进行测量分析的必要步骤[14]。当试题的Rasch检验结果符合单维性要求时,Rasch模型对该试题的信度、难度、区分度等分析才更为精确。对于这些单维性检验结果不佳的题目,不适合使用Rasch模型进行质量分析,可结合经典测量理论进行质量分析。

在Rasch检验中,标准残差图可判断是否有其他因素影响被试反应,用于进行单维性检验。残差图横坐标表示项目难度,纵坐标为项目分数与可能影响因素的相关关系值。标准残差图如图2所示。

从图2中可以直观地看出,本次测量试题的绝大多数项目在-0.4与+0.4之间,符合单维性要求,只有题目A、B、C、a显示出受其他因素干扰,测量的不是单一心理结构。这种涉及多维能力测量的题目(如涉及到数学计算能力的化学定量计算试题)不符合Rasch模型基本假设,就会与模型不拟合[15]。查表得出题目A、B、C、a分别对应试题3、23、19、5,需对这四个题目进行进一步分析以确定其不拟合的原因。

3.4 题目拟合度、测量误差检验

气泡图(Bubble Chart)可以更直观地显示题目与模型的拟合程度和题目的测量误差。如图3所示,横坐标为用于拟合度检验的未加权均方拟合统计量(Outfit Mean Square,简称Outfit MNSQ)[16],该值介于0.5到1.5之间表示结果与模型预期拟合,小于0.5表示过度拟合(Overfit),大于1.5则表示结果与模型不拟合(Underfit)[17]。从图3可以看出该试卷中题目拟合度总体上可以接受,即大部分试题的被试反应与模型预测一致性较好,模型可对这部分试题质量做出准确估计。但题目1的Outfit MNSQ小于0.5,即被试反应过度一致。题目3、5、6、19、23的Outfit MNSQ均大于1.5,这五个试题与模型预期结果不拟合,即被试实际作答跟模型预测结果不一致,说明高、低能力的被试都答对或答错题目。其中题目1、3、4、6的气泡半径较大,表明题目测量误差较大,测量结果不准确[18]。造成不拟合或误差大的原因很多,比如被试在考试过程中的猜测、作弊、创造性作答等[19]。对于拟合不佳或难度误差较大的题目须进一步分析,以便了解不拟合或难度误差大的可能原因。

3.5 题目难度与学生能力的匹配检验

Rasch模型的客观等距性反映在怀特图中,即表现为怀特图将学生能力与项目难度放在同一水平尺度上,不仅可以对不同项目难度进行对比分析,而且可直观、简洁地进行项目难度与学生能力的匹配检验。本研究中试题分析的怀特图如图4所示。

图中最左端数字是用于对比被试能力水平和题目难度的Logit量尺值,自下而上Logit值增大,表示被试能力水平升高、题目难度增加。“#”代表两个被试者,“・”代表一个被试者,右端数字为不同题目编号。理想的试卷题目分布应该是不同难度题目均存在能力水平与之对应的被试,且在被试分布相对密集处所设置的题目数量相应较多[20]。图4显示大多被试能力水平在0以上,表明该试题相对被试整体水平偏易。Logit值3以上没有与被试能力相对应的题目,而题目1、3、6太过简单,没有能力水平与之对应的被试。需要适当减少难度较低的题目,增加难度较高的题目,以增加不同难度题目的覆盖面。由图4还可看出,被试分布呈负偏态分布,这也说明试题整体难度较低,能力水平较高的被试较多。

综上所述,试卷整体信度较高,具有良好的区分度,与Rasch模型拟合较好,但试题难度较被试能力水平而言偏易,缺少难度较大的题目。存在个别不拟合、过度拟合、不符合单维性要求等题目,有待进行具体分析。

4 利用Rasch模型进行试卷质量分析应注意的问题

利用Rasch模型进行试卷质量检验可以更直观地对试题质量和学生能力水平加以分析,便于教师更好把握试题对应内容的教学质量以及学生能力发展状况。但应用过程中存在以下值得注意的问题。

4.1 根据实际分析需要选择Rasch模型的相应分析功能

Rasch模型的分析功能较多,应根据实际需要选择相应功能进行分析。比如,许多学校的平时测验采取教师或教科组自命题,这就可以选择上述3.2的试卷整体质量检验功能进行信度、区分度等检验,还可以根据3.3所述的单维性检验功能检验是否存在影响项目作答的其他因素,也可以选择气泡图来分析被试在哪些项目上反应过度一致或反应与期望反差太大。又比如,在对单元小结考试的试卷分析中,教师可以选择怀特图来分析不同能力水平学生的分布情况,以确定本单元的教学质量。

上述功能只是Rasch分析中可用于试卷质量分析功能的一部分,教师可根据实际分析需要选择对应功能,也可结合多项功能进行分析。教师还可根据实际分析需要选择其他的功能,如使用Rasch分析的DIF(Differential Item Functioning)检验功能进行不同性别学生某一化学能力的对比分析。

4.2 根据项目实际分析情况进行项目处理

Rasch模型对试题质量以及被试能力的预测是基于被试反应进行的,因此,Rasch分析可对试题是否适用于相似群体的特定能力测试做出判断。不同被试对相同试题可能做出不同反应,所以,不可以利用Rasch分析结果直接用于绝对性地判断试题质量高低。例如,如果将初中化学升学考试题用于化学知识竞赛,再利用Rasch模型进行数据分析,分析结果可能会很不理想。

当试题满足单维性检验且与模型拟合较好时,说明被试反应与模型预测较为一致,Rasch检验就可以很好地对被试能力及试题质量做出估计[21]。试卷质量分析过程中可根据试题的各项分析结果进行试题质量界定。但Rasch检验不可避免会有过度拟合、不拟合、误差太大或不符合单维性要求项目存在。对于这些项目教师不可以盲目地加以否定,需要在进一步分析的基础上,根据实际情况对项目进行修改或决定是否保留。

如上述题目1检验结果显示过度拟合,即学生反应过于一致。查阅试卷信息发现,该题目考察学生对造成雾霾原因的了解,学生都知道正确选项“水力发电”是不会造成雾霾的,故几乎所有考生均能回答对该题目,考虑到一套试题中有必要存在难度低的题目,而且该题目与STSE的思想密切相关,所以该题目可以保留。再如,在对不符合单维性要求的题目5进行分析的过程中发现,题目5结合图形考察了“浓盐酸具有挥发性”、“常温下稀释NaOH溶液,其pH减小,但不会小于7”、“同一温度下相同物质的饱和溶液浓度是一定的”、“Cu(OH)2沉淀可与盐酸反应”等多个知识点,每个知识点的掌握情况及被试的读图能力均会影响被试对该题目的作答,所以,该题目虽然与模型不拟合,但是作为一个综合性较高的中考模拟题可以保留。总之,教师要学会利用Rasch检验结果结合实际情况合理地对项目进行处理。

4.3 根据实际情况选择分析软件及其他可用技术进行Rasch分析

可用于Rasch分析的计算机使用软件种类较多,如Winsteps、Conquest以及Bond & Foxstep等,且功能日趋完善,操作不断简化。教师可选择性地学习某一种进行应用。与Rasch分析软件相兼容的常用数据处理软件有Excel和SPSS,教师可结合分析要求和自身对软件掌握的实际情况选择合适的兼容软件。教师还可结合实际情况选择其他有利于将该试卷分析技术普及到实际教学测验工作中的技术,比如计算机辅助考试技术、计算机辅助阅卷技术等。

参考文献:

[1][2][7][17] Maja Planinic, Lana Ivanjek, Ana Susac. Rasch Model Based Analysis of the Force Concept Inventor [J]. The American Physical Society, 2010, 3(10): 1~11.

[3]朱正才,杨惠中,杨浩然. Rasch模型在CET考试分数等值中的应用[J].现代外语,2003,1(26):69~75.

[4]王蕾.Rasch客观等距测量在PISA中国试测研究中的实践[J].心理学探新,2007,(4):69~73.

[5]徐惠,陈功,马宏佳.教师对学生自主学习支持程度与学生化学学习相关性的实证研究[J].课程・教材・教法,2016,(36):100~106.

[6]张敏,马宏佳.高一学生化学学科能力差异研究[J].教学研究,2016,(1):2~6.

[8] Gavin W. Fulmer,Ling L. Liang ,Xiufeng Liu .Applying a Force and Motion Learning Progression over an Extended Time Span using the Force Concept Inventory[J].International Journal of Science Education, 2014,(36): 2917~2936.

[9] Liu, X.Using and Developing Measurement Instrument in Science Education: A Rasch Modeling Approch Charlotte [M]. North Charlotte: Information Age Publishing, 2010: 206~208.

[10] Wei, S. Liu , X., Jia, Y.. Using Rasch Measurement to Validate the Instrument of Student Understanding of Models in Science (SUMS) [J]. International Journal of Science and Mathematics Education, 2014,(12): 1067~1082.

[11] Shawn M. Glynn. International Assessment: A Rasch Model and Teachers’ Evaluation of TIMSS Science Achievement Items [J]. Journal of Research in Science Teaching, 2012, 49(10): 1321~1344.

[12]何壮,袁淑莉,赵守盈.教育考试中短测验的分析方法――基于两种项目反应理论方法的比较研究[J].中国考试,2012,10(18):18~24.

[13] Jan-Eric Gustafsson. Testing and obtaining fit of data to the Rasch model [J]. British Journal of Mathematical and Statistical Psychology, 1980(33): 206~233.

[14] John. M. Linacre. A Users Guide to WINSTEPS[CP\OL]. ,2011. 2016-06-20.

[15]张莉娜,王磊.对初中化学变化认知水平的评价研究――基于Rasch模型[J].中学化学教学参考,2015,(11):1~6.

[16]杨玉琴.化学学科能力及其测评研究[D].上海:华东师范大学博士学位论文,2012.

[18]罗德红,龚婧.Rasch模型在试卷质量分析中的应用――基于五六年级学生阅读素养的测试卷的分析[J].教育测量与评价,2015,(1):18~22.

[19]陈康.以PETS为例谈Rasch拟合统计量的使用[J].中国考试,2013,(12):14~18.

[20]王蕾. Rasch测量原理及在高考命题评价中的实证研究[J].中国考试,2008,(1):32~39.

[21] Liu, X.. Elementary to High School Students’ Growth over an Academic Year in Understanding the Concept of Matter [J]. Journal of Chemical Education, 2007, 84(11): 1853~1856.