融合模型在小学数学认知诊断评价中的应用(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇融合模型在小学数学认知诊断评价中的应用范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：本研究以小学数学中圆柱与圆锥这一章节为测验内容，通过融合模型的专门软件Arppegio 3.1进行分析，得到被试掌握模式、项目参数以及信效度指标。同时，为了检验题目的效度，对部分学生进行半结构化访谈，主要关注学生作答时的过程与策略，并与之前设定的Q矩阵中属性进行对比。结果显示：（1）本套测验中有些题目需要进一步修正；（2）融合模型在诊断应试者知识状态时，具有较高的判准率和信效度；（3）学生访谈可以为认知诊断研究提供有效的分析材料，为试题的修正提供可靠的依据。

关键词：认知诊断；融合模型；小学数学；访谈

中图分类号：B841.2 文献标识码：A 文章编号：1003-5184（2012）05-0423-06

1 问题提出

认知诊断作为认知心理学与现代测量学的产物，结合了认知模型与计量模型，已经成为当前国内外心理测量学研究的一个热点。认知诊断的理论与技术改变了以往心理测量“重结果、轻过程”的弊端，为调查隐藏在被试外在表现下的认知过程和内在知识结构提供了方法。它从认知心理学的角度分析学生在题目作答过程中所采用的知识与技能，获得关于学生知识与技能掌握上的优势与不足等诊断信息。正因为如此多的优点，认知诊断评价越来越广泛地被研究者应用于现代教育与测量中。

自20世纪80年代开始，研究者从不同角度界定了各种诊断模型，并应用于实际测验之中（余娜，辛涛，2009）。涂冬波和漆书青（2008）总结出，国际上目前已开发近60 种认知诊断计量模型，较有代表性的有：线性逻辑斯蒂克特质模型（LLTM，Fischer，1973），规则空间模型（Rule Space Model，Tatsuoka，1983），DINA & NIDA模型（De la Torre & Douglas，2004），统一模型（Unified Model，DiBello et al.，1995），属性层次方法（AHM，Jacqueline et al.，2004）以及融合模型（Fusion Model，Hartz，2002）。

融合模型（Fusion Model）在统一模型（Unified Model）的基础上重新进行参数化，有效解决了统一模型参数不能估计的问题，被认为是一个非常成功的认知诊断模型。融合模型的数学表达式为：

其中=∏Kk=1P（Yijk=1|αik=1） qik，它表示应试者正确应用项目i所有属性的概率，是以Q矩阵为基础的项目难度参数，其值域为＼[0，l＼]。越大说明项目越容易，一个项目仅有一个难度参数。

r*ik=rikπik=P（Yijk=1|αik=0）P（Yijk=1|αik=1），它表示应试者未掌握属性k与掌握属性k但都答对项目i的概率比，是项目i属性k的区分度参数，其值域为＼[0，1＼]。值越小说明项目i的属性k对正确回答该项目越重要，它的区分度越高，越能区分开掌握属性与未掌握属性的被试。如果一个项目若有K个属性，那么它将有K个区分度参数。ci表示答对项目i所需残余能力的程度，是一个考察项目i在Q矩阵属性完整性的指标，其值域为＼[0，3＼]。ci越大说明Q矩阵所界定的项目i测的属性越完整。

由此看来，一个项目含有1个难度参数k，K个区分度参数r*ik以及1个完整度参数ci。一个好的项目，它将是低r*ik值和高ci值。

目前，有研究表明融合模型的联合正确诊断率不理想。Henson和Douglas（2005）的模拟研究表明：融合模型的正确诊断率受认知属性个数及属性间的相关程度的影响。属性的个数越少正确诊断率越高，属性间的相关性越高正确诊断率也会越高。因此在实际中融合模型更适用于认知属性不太多（5个左右）、属性间相关高的认知诊断测验中。又因为融合模型参数估计和软件操纵上都略为复杂，所以用于实际应用的研究不多。Montero，Monfils和Wang等（2003）曾将融合模型应用于高等学校课程考试中取得良好的效果。车芳芳（2010）将融合模型应用于初中代数中，得到了初一学生代数的知识状态。

本研究采用融合模型诊断小学生在圆柱与圆锥这一章节上知识属性的掌握情况，根据融合模型的参数估计结果评价试题质量和Q矩阵的合理性。同时，为了检验题目的效度，对部分学生进行半结构化访谈，主要关注学生作答时的过程与策略，并与之前设定的Q矩阵中属性进行对比，为试题的修正提供更有效的依据。

2 研究方法

2.1 被试

本研究选取了大连市甘井子区51所小学六年级的学生作为测试对象。参加大规模上机测试的学生共2097人，收回有效数据2059份。参加访谈的学生共24人，分别来自城市、乡村和农村小学，每个学校选取成绩好、中、差的学生1人、2人、1人，成绩等级为本校教师对其的评价。其中12人作答单号题，12人作答双号题。最终收回有效数据22份，单双号题各11份。

2.2 研究材料

上机测试的试卷共有20道选择题，考察的内容为北京师范大学出版社小学六年级下册圆柱和圆锥这一章节，试卷涉及6个属性，分别是：圆柱的初步认识、圆柱的表面积、圆柱的体积、圆柱的综合应用、圆锥的初步认识和圆柱与圆锥的综合应用。试卷长度适中，学生作答需要约45分钟。

学生访谈的目的是了解学生的做题策略，考察学生在解题时是否用到本题包含的知识属性，当出现错误时，查看学生是否因未掌握本题中的属性而导致。因此，在访谈过程中，要启发学生思考和表达，请学生详细描述做题时的过程和想法。针对不同的题目，可以从不同的角度进行启发，但目的都是为了获得学生做题时的想法。访谈过程需要全程录音，访谈结束后根据录音将材料进行整理和编码。

针对第8题的访谈问题举例：（1）你为什么选择了这个答案？你是怎么想的？（2）水桶的底是个什么形状呢？它的面积是多少呢？（3）侧面是个什么形状呢？怎么求这部分的面积呢？（4）一共需要多少铁皮呢？

2.3 数据处理

本研究使用融合模型的专用软件Arpeggio3.1版本处理大规模上机测试的数据，并辅助使用SPSS17.0对数据进行汇总和简单处理。对访谈录音进行逐字逐句转录，针对策略和技能进行编码，最终提炼出学生解答问题时使用的主要技能。

3 结果分析

3.1 原始得分情况

每题作答正确率如图1，所有题目的正确率在0.30到0.96之间，有17道题目的正确率达0.50以上。第1题和第16题正确率都非常高，分别达到了0.96和0.95，说明这两道题非常简单。第9题正确率最低，只有0.31，此题考察的属性是圆柱的体积，但还涉及到单位换算步骤，在访谈结果中发现学生多在此处出现失误。

学生在不同分数上的分布如图2所示，从图中可以看出，学生的分数分布在1到19分之间，无零分和满分。多数人的得分在12到15分之间，并且高分数段人数明显多于低分数段人数，只有极少数人得分在5分及以下。

综上，学生在本次测验中的表现较好。从各个题目来看，多数题目的正确率都很高；从原始分数的总分来看，学生多数分布在高分数段。所以此次测验题目比较简单。

3.2 题目参数估计结果

利用Arpeggio3.1软件估计出题目的参数π*i、r*ik和ci，具体结果见表1。从结果中可以看出，各题的难度系数π*都较大，只有第9、10题小于0.5，其他都在0.7以上，说明除第9、10题以外，其他题目

都比较简单。个别题目的区分度参数r*较高，尤其第1、5题，其值大于0.9，说明这两道题不能区分开掌握与未掌握该题属性的被试。并且这两道题的难度参数都在0.95以上，再次说明这两道题过于简单，几乎所有人都可以正确作答，所以理论上应该对这两题进行修改或删除。ci值对于大部分题目来说都较高，说明Q矩阵所界定的属性较完整。但是第14和20题的c值小于0.5，第17和19题c值小于1.5，说明这四道题目除了包含Q矩阵所界定这些题含有的属性外，还有其他技能影响着这些题的正确作答。

整体来讲，从题目参数的角度来看大部分题目表现良好，但是个别题目由于区分度不高、完整性不够，需要进一步修正。

3.3 被试属性掌握情况及判准率

3.3.1 属性掌握情况

Arpeggio3.1软件包中的FastClass3_1b.exe程序可以根据预先设定的标准，判断每个被试的每个属性的掌握情况，分为掌握和未掌握两种情况。针对本次测验，将掌握概率大于0.5时判定为掌握，小于0.5时判定为未掌握，被试的属性掌握情况见表2。

从结果看出，这批被试在属性A1、A2、A3、A5上的掌握较好，均有70%以上的被试掌握了这些属性。属性A6掌握情况一般，只有46.33%的被试掌握。属性A4的掌握情况最不好，只有26.52%的被试掌握。A4和A6分别是圆柱的应用和圆柱与圆锥的应用，通常来讲，在涉及到应用类型的题目上，学生作答情况都不如基础知识，所以掌握这两个属性的人数比例较低。

被试在掌握属性个数上的分布见图3。

从结果看出，被试掌握属性个数集中在3到5个，少数被试掌握属性个数在2个及以下，有13.79%的人掌握了全部的6个属性。总体来讲，被试掌握属性的情况较好。

3.3.2 判准率及信效度

Arpeggio3.1软件包可以利用参数估计的结果进行模拟，并得出判准率、一致性系数（Cohen’s kappa系数）、重测信度（TRC）等指标，为研究者提供有效的评价标准。针对本次测验，各项指标如表3，其中M判准率指正确判断被试掌握属性的概率，NM判准率指正确判断被试未掌握属性的概率。同理，MTRC和NMTRC分别指被试掌握和未掌握属性情况下的重测信度。

从结果中可以看出，总的判准率为0.837，判断被试掌握属性的正确率要高于未掌握的；一致性系数为0.541，尚可接受；重测信度为0.775，掌握属性时的信度高于未掌握时的。属性A4的各指标低于其他属性，且对被试掌握属性的判准率要低于未掌握的，重测信度也是未掌握时的更高。结合之前的结果，可能是由于被试在属性A4上的掌握情况不好，未掌握的人数较多、掌握的人数较少导致。

总体来讲，融合模型的判准率比较高，结果较为一致，重测信度也较高。

3.4 访谈结果

所有录音经过整理编码，确定学生作答的策略，根据编码和学生的作答情况，将学生分为掌握属性并回答正确（MC）、掌握属性但回答错误（MF）、未掌握属性但回答正确（NMC）、未掌握属性且错误（NF）4种类型，统计结果如表4。

从上表中可以看出，第9、10、11、14、15题的正确作答率较低，11人中只有6～7人能够掌握题目的属性并正确作答，其他题目正确作答人数均在8人及以上。第9题掌握属性但回答错误率即失误率较高，达到8人，第10题有3人失误，其他题目失误率在2人及以下。第15题，未掌握属性且回答错误的人数为4，说明该题目属性较难掌握，并且该属性可能是答题的关键。

通过学生访谈结果，研究人员还发现有些属性也是作答正确的关键，但是并没有在Q矩阵里包括，具体如表5。

以上表格中列出的为Q矩阵中未包含的属性或标定错误的属性。从结果中可以看出，很多题目涉及到实际应用问题和对题目的理解分析，学生如果不具备这样的能力则无法正确作答。而第9题涉及单位换算，很多学生在此出现失误。因此这些题目需要增加属性或改变属性。4 讨论

4.1 试题编制及改进建议

结合融合模型的估计结果和访谈结果，不难发现本套测验中有些题目是存在问题的，需要进一步修正。

例如第5题考察圆柱体的表面积，原题是：“做一个圆柱形的纸盒，至少需要多大面积的纸板，就是求这个圆柱的（）。（A）侧面积（B）表面积（C）体积（D）容积”该题目的正确率为0.89，融合模型下该题的难度参数π*为0.9617，区分度参数r*为0.9307，说明该题目区分度较差，不是一道很好的题目。查阅学生访谈结果发现，11人中有10人正确，并且了解表面积这个属性，能够详细描述表面积的定义等。与第6、7题相比，虽然都包含圆柱的表面积这一属性，但是6、7题需要进行运算，考察了表面积计算公式等内容。这说明，6、7题包含的属性更一致，而第5题的属性划分为圆柱的初步认识更为合适。

比起其他认知诊断的模型，融合模型的参数估计结果可以比较直接地反映出题目的难度、区分度和Q矩阵完整性等方面的质量，因此，可以为教育研究者提供具体的、可靠的测验编制依据。

4.2 Q阵的建立可以结合多方面的资料

本研究中属性的划分由学科专家负责完成，但是研究发现本套试卷中题目与属性的拟合度较差，体现在题目的区分度参数与Q矩阵的完整性参数较差两方面。区分度参数较高说明属性标定是多余的，即被试不掌握标定的属性仍然可以做对题目；完整度参数较低说明属性标定是缺乏的，即研究者认为掌握该属性就能作答正确，但实际上被试只掌握这些属性也无法正确作答，还需要其他能力。而本研究使用的试卷就存在以上两种问题，通过学生访谈的结果发现的确存在缺少的属性和多余的属性。Q矩阵直接影响着参数估计和诊断结果，因此，在研究中做好属性划分和Q矩阵的建立工作，是研究的重要过程。而这一部分工作不能单方面地依靠学科专家的评定结果，也应多方面、多角度收集材料。比如本研究中学生的访谈结果，可以为改进Q矩阵提供有效的依据。总之，研究者需要在认知诊断测验的编制过程中，结合多方面信息制定有效的Q矩阵并根据实际情况反复地对属性的划定进行改进。

5 结论

5.1 本套测验中有些题目需要进一步修正。

5.2 融合模型在诊断应试者知识状态时具有较高的判准率和信效度。

5.3 学生访谈可以为认知诊断研究提供有效的分析材料，为试题的修正提供可靠的数据支持。参考文献

车芳芳.（2010）.融合模型在初中代数认知诊断中的应用.研究生硕士论文.上海：华东师范大学.涂冬波，蔡艳，戴海崎，漆书青.（2008）.现代测量理论下四大认知诊断模型述评.心理学探新，28（2），63-67.

余娜，辛涛.（2009）.认知诊断理论的新进展.考试研究，（3），22-34.

De la Torre，J.，& Douglas，J.A.（2004）.Higher-Order Latent Trait Models for Cognitive Diagnosis.The Psychometric Society，3，333-353.

DiBello，L.V.， & William， F.S.，& Louis，A.R.（1995）.Unified Cognitive/Psychometric Diagnostic Assessment Likelihood-based Classification Techniques.In P.D.Nichols，S.F.Chipman，& R.L.Brennan（Eds.）， Cognitively diagnostic assessment.Hillsdale，NJ：Lawrence Erlbaum Associates. Fischer，G.H.（1973）.The Linear Logistic Test Model as an Instrument in Educational Research.Acta Psychological，37，359-374.

Hartz，S.，& Roussos，L.S.（2002）.Skills Diagnosis：Theory and practice.User Manual for Arpeggio Software，ETS，9-10.

Henson，R.，& Douglas，J.（2005）.Test Construction for Cognitive Diagnosis.Applied Psychological Measurement，29（4），262-277.

Jacqueline，P.L.，& Mark，J.G.，& Stephen，M.H.（2004）.The Attribute Hierarchy Method for Cognitive Assessment：A Variation on Tatsuoka's Rule-Space Approach.Journal of Educational Measurement，3，205-237.

Montero，D.，Monfils，L.，Wang，J.Y.，et al.（2003）.Investigation of the Application of Cognitive Diagnostic Testing to a High School End of Course Examination.Presented Paper at the Annual meeting of the National Council on Measurement in Education.Chicago，Illinosis.

Tatsuoka，K.K.（1983）.Rule Space：an Approach for dealing with Misconceptions based on Item Response Theory.Journal of Education Measurement，4，345-354.

An Application of the Fusion Model in Primary Mathematics Cognitive Diagnosis Assessment

Wang Jiaqi Liu Hongyun

（School of Psychology，Beijing Normal University，Beijing 100875）

Abstract：This study used the specially software Arppegio 3.1 for Fusion Model to diagnose 6 grade students’ mastery of cylinder and cone unit in primary mathematics，got the students’ attribute-mastery patterns，item parameters，reliability and validity.Meanwhile，semi structured interview were taken on some students to examine the validity of the items，and compare the procedure and strategies of students during problem solving to the attributes in Q matrix.The results revealed that：（1） Several items in this test still have some problems and should be improved；（2） The Fusion Model has a high correct discrimination rate，reliability and validity when diagnosing examinees’ knowledge state；（3） Interview can provide effective materials for cognitive diagnosis，and offer support to the modification of the items.

Key words：Cognitive Diagnosis；Fusion Model；Primary Mathematics；Interview

融合模型在小学数学认知诊断评价中的应用

常用范文

优秀范文

精选范文