教育测量与评价论文(精选5篇)

教育测量与评价论文范文第1篇

关键词：体育测量与评价；体育领域；科学发展

中图分类号：K06文献标识码：A文章编号：1006-4117（2012）03-0077-02

体育测量与评价作为教育测量与评价的分支学科，很多方法和原理都是教育测量与评价和人体科学的综合发展的过程中提炼和优化发展的，随着母学科的发展，体育测量与评价在同时发展的过程中也形成了自身独有的科学发展体系。体育测量与评价就其学科特点包括了自然科学和社会科学两大门类，是两大学科门类的桥梁学科，由此可以推断体育测量与评价是人和社会在体育领域内的工具学科，属于科学方法论的范畴，为体育运动实践、体育理论知识结构构建和人的全面发展提供了基本理论依据和方法，本研究主要对体育测量与评价学科的发展历程进行梳理回顾，结合现状提出自己的一些浅识，与大家共勉，不当之处敬请指正批评。

一、体育测量与评价的历史回顾

孙庆祝、刘星亮、罗飞虹等在体育测量与评价教材中提出早在公元前3500-前两千年就有了相似于人体测量方面的研究，如古埃及、古印度、古希腊等国家，当时研究者的主要出发点就是了解人体各环节的比例，对身体部位进行测量（当然工具简单，与当时的实际水平相关）试图发现用人体的某一部位作为身体整体测量的计算单位，如掷枪人［1］。我国在2000多年前已有关于人体测量方面的记载，如医学经典著作《内径．灵枢》中的《骨度篇》已有关于一些人体测量方法的经典论述［2］。关于人体测量方面的研究从19世纪中后叶蓬勃发展，主要以身体的左右对称和身体的各部位的比例为内容进行研究，1880年前后随着研究者的深入，逐渐转入肌力方面的测量，从肌肉形状的大小转向肌肉机能方面这也说明了学科科学发展中，深层探索的需要。20世纪初，随着社会科学的发展，体育测量与评价学科逐渐转向实际运动能力的研究，涵盖了速度、耐力、力量等领域，更加注重测量方法和手段的综合性。

总之，体育测量与评价的发展大致经历了人体测量、肌力测量、身体机能整体测量和运动能力综合测量等阶段，其实这些发展阶段并不是绝对划分的只是受当时思维方式和科学探索能力的限制，没能全方位多角度的发现问题和解决问题，不过我们也应该认识到测量工具和科学技术手段在体育测量与评价中的地位和作用，这些也是限制早期体育测量与评价学科发展的关键因素。

二、体育测量与评价的学科发展现状

（一）体育测量与评价方法的标准化发展

近年来，体育测量与评价学科发展比较早的地区和国家，在测量仪器、测量内容和方法等方面都达到了较高的水平［3］出现了大量的测量方法手段和工具，同时测量涉及的面广，如身体形态、身体机能、身体素质等测量。在体育测量与评价学科的发展过程中，规范化和标准化成为学科发展的趋势，国内外都制定了相当的测量标准，主要表现在测量方法手段和测量工具方面。很大程度上加速了体育测量与评价学科的发展，大批量的科研组织和团队进行深入研究为学科的标准化发展提供强大精神动力和智力支持。

（二）不同区域文化和人种特征和测量方法的科学化程度对体育测量与评价提出新的要求。

在马克思主义经典著作里我们也可以看到世界上没有一片完全相同的树叶的论断，其实在测量方法和测量工具标准化发展的过程中，人么也会不断的思考，有没有统一的尺度和标准对所有人都实用，测量结果是否一致，实践证明不同的区域文化和人种特征其测量与评价的结果是不同的。叶国雄，邱卓英在不同人种和文化背景下的体育与评价研究中列出了不同人种的基本差异和不同区域文化背景下人的心理特征的差异指出，在测量工具和方法的标准化和科学化的前提下测量出不同区域文化和人种背景下的个体特征差异和群体特征差异是体育测量与评价学科本土化发展的必然选择［4］杨继星，赵先卿，利剑在体育测量信度估价研究的现状与问题分析中指出在测量方法方面应注重测量信度和效度的应根据实际情况进行分析研究和科学检验，测量方法和理论必须追求科学性和实用性［5］。

（三）体育测量与评价学科与其他学科交相发展

体育测量与评价是教育评价的分支学科，既有教育评价系统的最基本的特征也有其自身处于突出地位的自身学科特征，所以来自教育评价系统的相关学科和来自体育测量与评价系统的相关学科形成立体的互相影响和促进的学科群，在体育测量与评价学科体系中，体育测量与评价起到整体促进体育领域协调科学发展的中流抵住作用。袁尽州在体育测量与评价学科发展中存在的问题及对策中指出，体育测量与评价是一门交叉的综合学科，同其他学科有着密切的关系如测量评价理论与统计学、计算机的关系;形态测量与人类学、运动保健、人体解剖学的关系;生理机能测量与生理学、生物化学的关系;身体素质和运动技术的测量与运动生物力学及其他术科的关系;心理素质测量与心理学的关系;知识测验、体育教育评价和教育测量学的关系等。如何处理好这些关系对体育测量评价学科的发展有着举足轻重的作用［7］

（四）中外体育测量与评价的研究成果相互借鉴发展

前面的论断我们基本清楚了一点，体育测量与评价学科的发展与科学技术的进步程度是分不开的，西方发达国家在体育测量与评价方面的成果和学科体系建设要明显高于我们的发展水平，以美国为例他们已经有上百年的历史了，学科的发展基本达到非常完善的地步，在竞技体育、学校体育、社会体育等评价体系方面都有了十足的发展，形成了科学完善的科学测量方法和评价体系。仇建生在中美体育测量发展比较研究中指出美国在体育测量方法手段、体育测量研究范围、体育测量制度等方面都有很强的优势［8］。

三、体育测量与评价学科的发展展望

（一）体育测量与评价学科的三观发展态势

体育测量与评价学科涵盖了自然科学和社会学科的相关研究范畴，经历了人体、群体、区域、体育系统领域的测量评价发展过程。其自身也在测量方法手段，测量的科学性等方面不断提高和完善，随着测量领域的扩大和测量评价的科学性发展，现代体育测量与评价体系呈现宏观、中观和微观的协调互助发展的态势。在宏观方面涉及到体育领域的各个方面如社会体育、竞技体育和学校体育以及体育理论学科的相关评价体系。在微观方面如单个的技术动作和个人的身体机能和组织器官都有了较系统的评价指标和测量量表。

（二）体育测量与评价学科的不断分化发展趋势

体育测量与评价涵盖了身体形态的测量与评价、心肺功能的测量与评价、身体素质的测量与评价、心理健康与社会适应能力的测量与评价、体质综合测量与评价、运动技术水平的测量与评价、学校体育评价等领域。但从一门学科的发展来说面临的问题太多，笔者认为可以分成几个子学科采用向群理论将相项目之间关系密切的问题形成子系统分类研究，这样会让人感到知识的清晰系统和知识体系的完整性，这一点只是自己的一些看法，不敢赘述太多。

（三）科技引领下的体育测量与评价向人们大众的普遍应用发展趋势

随着科学技术的发展，体育测量评价方法和手段逐渐社会化和先进仪器设备程序化，只要被测者按程序要求操作就能很快看到测试结果。同时科学技术的设备产品从原来的实验设备逐渐转变为生活常备的家用工具，人们随时随地都能了解身体的变化情况和运动机能水平的改善情况，虽然有些设备很多人还不具备购买能力但是在一些科研单位和体育健康保健中心、健身中心、社区活动中心都能免费或者收取少量费用进行测试，了解自身的发展情况。在社会经济发展的过程中我国体育事业逐步进入大众化的发展趋势，人们对健康和体育运动会有全新的认识，同时全民的运动产与也给体育测量与评价学科体系的发展带来了挑战和机遇，不断增加的运动参与者和不断出现的运动领域的一些现象（如运动疾病，运动障碍等）要不断的充实和完善体育测量与评价体系，以适应社会发展和满足人们的需要。

结束语：体育测量与评价是随着社会的发展和科学的进步，活跃在体育领域的一门科学方法和应用学科，学科发展的宗旨是更好的为社会为人们的健康发展服务，具有了生产力的功能，就其学科发展的本位功能来说，要不断的更新和完善测量方法和体系，不断的适应体育领域内人类社会和环境的一切变化形式，要不断更新测量标准量表和制定切实可行的区域阶段普适性量表为学科的发展不断注入新的活力。未来体育的发展，将会建立在更加完善和科学的测量评价基础之上。

作者单位：商丘师范学院

作者简介：董倩玲（1956- ）女，河南商丘人，商丘师范学院体育教学部副教授，研究方向：体育理论与实践

参考文献

[1]孙庆祝.体育测量与评价[M].北京:高等教育出版社,2006

[2][3]刘星亮,罗飞虹,张金春,周蔷等著.体育测量与评价[M].北京:北京体育大学出版社,2006

[4]叶国雄,邱卓英.不同人种和文化背景下的体育测量与评价研究[J].武汉体育学院学报,1994(4)

[5]杨继星,赵先卿,利剑.体育测量信度估价研究的现状与问题分析[J].首都体育学院学报,2005(2)

[6]魏登云,李萍,基于误差模型的体育测量可靠性基本理论[J].北京体育大学学报,2007(5).

教育测量与评价论文范文第2篇

关键词：汉语教学汉语教学评价国外教育评价流派

汉语作为第二语言教学既指的是在中国进行的对外国人的汉语教学，也指的是世界各地的汉语教学，还指对中国国内少数民族的汉语教学，我们把这种教学简单的称为“汉语教学”。[1]汉语教学评价虽然是一门年轻的学科，但是已经成为评估和检测对汉语教学目标、教学过程、教学效果、教学大纲制定、教材选择等的有效手段。作为教育评价的一个分支，教育评价既要遵循教育评价的一般规律，也有自身的学科特点。分析国外教育评价的不同发展阶段的特点，对于丰富和深化我国汉语教学评价理论有重要的理论价值，对于提高汉语教学质量有重要的实践意义。

一.国外教育评价的发展阶段

国外教育评价划分为四个理论阶段：第一阶段是“测量时期”，十九世纪末至二十世纪三十年代。英国的高尔顿通过对个体差异的长期研究，于1869年发表了《遗传的天才》一书，揭开了教育测量的序幕。1879年，德国的冯特在莱比锡逐步摸索出了一套实验心理学测量方法；1889年厄恩编制的测验，将能力分为知觉、记忆、联想和运动机能等四种；1892年波尔顿试行记数测验，测量儿童记忆力；1896年艾宾浩斯首先用填充法测量学生智力；1897年，美国的莱斯发表了他对20个学校的1600名学生所作的拼字测验的结果，引起了人们对测验方法的普遍关注；“1904年，美国的桑代克发表了《心理与社会测量导论》一书，提出了“凡存在的东西都有数量，凡有数量的东西都可以测量”的基本观点，为教育测量奠定了理论基础，对教育测量学的建设与发展做出了巨大贡献。”[2]这一时期，以测量作为标志，追求的是教育客观化渗透了教学工作的各个方面。

第二阶段是“描述时期”，二十世纪三十年代至五十年代。“1929年资本主义世界经济危机的爆发导致美国经济的大衰退，也引起人们重新评价中学的课程设置、教学大纲以及中学与大学之间的关系，从而对教育也提出了新的需求。社会各界纷纷要求改革现有的教育制度，以便适应社会发展和满足学生需求。于是，在“进步教育协会”的指导下开始了这项为期8年的实验研究。”[3]“八年研究”结束时，以泰勒（Ralph W Tyler）为首的学院追踪研究组，对“八年研究”的结果进行了评价。1949年，泰勒正式出版了被奉为课程论圣经的《课程与教学的基本原理》一书，总结了他在“八年研究”中的成果，正式提出教育评价的概念，使人们在思想上和行动上接受了采用教育评价方法来描述教育效果这一观点，其特征是对测验结果进行“描述”，并力求教育标准化。

第三阶段是“判断时期”，大约出现于一九五零年至一九七零年。1963年，克龙巴赫在其题为《通过评价改进课程》的论文中，把教育评价的内涵阐述为：“为作出关于教育方案的决策，收集和使用信息。”1967年斯克里芬发表了《评价方法论》提出了一个完整的、包含描述与判断两个方面的评价模式。他们认为评价的依据不是方案制定者的预定目标，而是参与活动者的实际成效。评价者的思考应该从教育方案想干什么变成教育方案实际干了些什么。评价者不仅要运用测量手段去收集各种信息，还要根据一定的价值取向评判教育，追求教育多元化。这样，判断就成了第三代教育评价的标志。

第四阶段是“同构时期”，出现在上世纪七十年代后期至今。第四代评价理论的创立者美国印第安纳大学教育学院枯巴(Egong Guba)教授和维德比尔大学高等教育学院副教授林肯(Yvonna Session Lincoln)依据建构主义方法论，1989年他们出版了名为《第四代教育评价》的专著，针对前三代评价中存在的“浓厚的管理主义倾向”、“忽视价值多元性”和“过分强调科学实证主义的方法”等缺点和不足，对评价的本质进行了有益的探讨，主要包括：心理构建论。教育评价从本质上说是一种心理构建，评价所表述的是评价者对评价对象的一种认识。评价结果也是其双方交互作用的“产物”。

价值协调论。教育评价是协调价值观的过程，在评价过程中，评价者与评价对象之间，在教育价值观上存在着差异，这种“差异”观点将纠正传统评价理论价值是一致的、单一的观点，表现为价值系统的多元化。

评价结果认同论。评价结果不依赖于评价对象的状况与客观现实符合的程度，而是参与评价活动的人关于评价对象状况的不同意见交换、认同的结果。

二.国外教育评价的流派

（一）行为目标模式。19世纪下半叶和20世纪最初三十年，课程和测验都是以教科书为中心加以编制，测验内容只是要求学生记诵教材的知识内容，不能反映出学生的实际需要。在这种情况下，美国俄亥俄州立大学教育科学研究所教授泰勒（Tayler, R.W）主持了课程与评价的研究，正式提出了教育评价的概念。泰勒把评价理解为“评价过程在本质上，乃是一种测量课程和教学方案在多大程度上达到了教育目标的过程。”行为目标模式是一个封闭的系统，包括：确定目标、选择经验、组织经验、评价结果。即以目标为中心，通过具体的行为变化来判断教育目标实现的程度是泰勒教育评价的主旨。

（二）CIPP模式。它是由背景（Context）评价、输入(Input)评价、过程(Process)评价和成果(Procluct)评价这四种评价组成的一种综合评价模式。它由美国的塔弗尔比姆（Stufflebeam）1966年提出的，它以决策为中心，为决策的不同方面提供信息。背景评价形成计划决策，输入评价为组织决策服务，过程评价指导实施决策，成果评价为再循环评价效力。CIPP模式将目标纳入了评价体系中，使得这种评价更完整更科学。它同时重视形成性评价，时刻考虑为决策者提供信息，使得评价活动更具备实用性和方向性。

（三）目标游离模式。1967年美国的斯克里芬(M.Scriven)提出他认为，实际进行的教育活动除了收到预期效应外，还会产生各种“非预期效应”，或者叫“副效应”或“第二效应”。布卢姆也说过：“人们无法预料教学所产生的成果的全部范围。没有预料不到的成果，教学也就不成为一种艺术了。”[4]斯克里芬认为泰勒将评价限于衡量达到教育目标的程度是不全面的，因为很容易让人忽视非预期的效果。这种非预期效应的影响有时是重要的，而在目标评价中却得不到反映。他不提倡让把评价的目标告诉被评价者，使得评价者搜集有关方案的全部成果信息。

（三）应答模式。这一模式由斯塔克（Stake.R.E）提出。他认为，要使评价结果能真正产生效用，评价人必须和这一活动所有参与者的不断对话，通过正式访谈、描述分析等自然主义方法获得信息反馈，使活动结果能满足各种人的需要，他认为解决问题只能依靠那些接触问题的人，这样的调查毫无疑问可信度比较高。斯塔克还强调“多元现实性”，反映了参评人员一定的需要，具备一定的民主性。

（四）反对者模式。反对者模式（adversary model）是由美国学者欧文斯（Owens,T.）等人在上世纪70年代中叶提出的。该模式为了揭示方案正、反两方面长短得失，采取准法律过程评委会审议形式的评价模式。它主张让持不同意见的评价者一起参与教育活动和教育方案的谈判。这一评价的基本特点是充分反映了各类人员“多元的”价值认识，依靠人们直觉与经验进行评价。

反对者模式的另一种形式是由美国学者沃尔夫于1973年提出的司法模式。沃尔夫的司法模式由下述四个阶段组成：争论的提出、争论的选择、辩论的准备、听证。反对者模式有助于决策者全面的获得信息，有助于事先使得各种潜在的冲突意见达到一致。

以上并没有把所有的教育评价流派列举出来，每一种流派都有其优势和劣势。关于教育评价流派的发展历史来看，我们可以看出一下趋势：1、评价过程，由封闭转为开放。泰勒模式以目标为出发点和最终归宿，组合成一个封闭的系统。重过程轻结果。CIPP模式及应答模式将评价看做本身的一部分，呈开放式的网络。2、评价内容，由单一转为全面。早先的教育评价只评价学生的学力，最后发展到教学准备、信息输入、教学过程、教学结果、评价参与人员等各个方面。3、价值观念，由客体转为主体。泰勒模式中，目标成为统一的评价尺度，一直到目标游离模式和应答模式中把人的需求也纳入到评价模式中来，逐渐强调人在评价中的作用。4、评价手段，由测试到多样化。从最早推崇各种客观的、标准化的测量，发展到提倡观察、交谈等自然主义方法，为评价提供了可靠地依据。

三.汉语教学和国外教育评价理论

汉语教学评价是汉语教学的一个重要组成部分，它的评价目标与教学目标是一致的，评价方法的使用要受到教学用途和教学阶段的制约，同时教学评价又总是要关注教学的改善，所以汉语教学与教学评价之间的非常紧密的相互依存的联系。[5]简单分析如下：

1、通过教学评价流派的演变，我们可以看到教学评价流派理论为汉语教学评价提供了评价的规则和途径，决定了评价的评价范围和权重比例。对教育评价流派的研究可以为我们提供理解汉语教学教和学的内涵和外延，同时，教育评价流派不仅研究了教学目标，还对评价的背景、信息输入、评价的结果、参与评价者本身、评价目标和实际目标的差距、评价的方法等进行了深入研究，这些理论对诊断汉语教学评价的重难点提供了一定的解释成因的理论依据。

众所周知，汉语教学特别是在汉语作为第二语言教学中，不同的国家由于学生及语言环境等原因的不同，怎样制定一个比较全面能够在一个国家普遍运用的评价规则，就需要从教育评价流派中寻找到理论依据。

2、设置任何一种的汉语教学评价方式都或多或少会受到教育评价流派的影响。为了检验某种教学法的效果和学生学习的效果，新的语言测试评价法都会在新的教育评价流派的影响下出现。教育评价流派无论对汉语教学评价体系的总体设计、评价方案的制定、评价工具的编制、评价活动的展开都有宏观和微观的直接指导的意义。

在汉语教学的综合课中，我们可以充分运用泰勒模式，对学生进行生词学习的检测。课文教学就需要结合学生实际，紧扣汉语作为第二语言教学的特点，把教学目标也纳入评价体系，考虑该目标是否符合本国的学生要求，同时在教学目标和实际目标的对比中，要注重实际目标，培养学生的华语交际能力。

3、教育评价流派理论对学习客体、学习目标、学习内容、信息反馈、限制和避免参与评价者的主观评价等进行了深入研究，对我们研究教材编写、课程设计、课堂教学等这些第二语言教学中极其重要的环节提供了一定的可行性操作方案。

在国内汉语作为第二语言教学理论研究正在如火如荼的进行，和国内火热场面形成强烈对比的是，由于国外的语言环境和教师素质不同，一些国家还在一些基本理论上争论不休，比如普通话和闽南话之争、繁体字和简体字之争、不同课型怎么来上等。教育评价流派为我们怎么去评价这些国家的汉语教学提供了具体可行的方案。比如作文教学目标的制定、听力课的信息反馈、评价学生的实际学习水平等。

如上所述，汉语教学评价是一门综合叉性学科，它的课程特点决定了教育评价流派是它的理论基础之一，深入具体的探讨教育评价流派会使汉语教学评价更加具有科学性和实用性，从而提高汉语教学质量。

参考书目：

[1][5]杨翼：《汉语教学评价》，北京语言文化大学出版社2008年第一版

[2]胡玲翠许有《浅析国外教育评价发展的主要阶段及特点》，《校外教育·理论》2007年第6期

[3]吴艳《美国‘八年研究’初探》2002年教育史硕士论文

教育测量与评价论文范文第3篇

[关键词] 增值评价；价值；评价方式；教育公平

[中图分类号] G647 [文献标志码] A [文章编号] 1005-4634（2014）05-0015-05

我国正处于高等教育大众化向普及化的转型期，受教育者资质各异，学业需求与学生学业发展不可避免地呈现出多样化的态势，教育成效和学生发展再度成为高等教育质量保障拓宽问题所关注的核心点。我国《国家中长期教育改革和发展规划纲要（2010～2020年）》中明确提出，提高人才培养质量是高等教育质量保障的刚性需求。我国高等教育改革已进入深水区，如何客观科学地评价高等院校自身的教育效力，科学地测量高校学生在大学四年的学业成果、发展表现及其增值幅度，是我国高等教育质量保障研究的热点与难点。与此同时，来自美国教育界的评价经验与做法为我国提供了理论与实践上的启蒙。

1 增值评价概念辨析

增值评价（Value-Added Assessment）的概念最早出现在美国，对它的研究始于1966年美国约翰霍普金斯大学社会学系科尔曼教授对美国教育公平的研究，之后陆续出现了一些涉及到学生学业评价问题的研究，直至2001年美国联邦教育法《不让一个孩子掉队》（No Child Left Behind）的出台，增值评价才开始成为美国教育评价的主流方式。

在英文语境下，增值评价的内涵范围多有交叉。有学者认为，“增值”观是针对学生学业成绩进步的增值进行价值判断，亦可称“成绩说”，此观点主要应用于基础教育领域。如汉塞克（Handshake）对增值内涵采取相对窄化的态度，将增值定义为后测与前测二者之间的成绩差异，即剩余值[1，2]。特克维（C.D.Tekwe）等将学生成绩进行连续年度的比较后所产生的变化定义为增值，并提倡以此来矫正学生入学知识或能力的教育效能评价[3]。泰勒（Taylor）和迈克柯兰（McClain）等提出了增值评价法（Value-added），认为学生在学习上进步或发展的增量可被看作是教学质量提升的结果，也是教学质量评估所要抓的重点[2]。萨丽托马斯（Sally Thomas）认为如果学校的教育可以为学生的学业成就增加“价值”，那么“增值”就表示学校所加诸学生身上，使其学习成绩超过一般期望成绩的额外部分[4]。另一种“增值”观，关注教育的整体效能，着眼于评价学生的整体发展程度的价值增值，亦可称“全面说”，在高等教育情境下应用较为广泛。学者阿斯汀（Alexander W.Astin）把有关增值内涵的观点在《实现卓越教育（Achieving educational excellence）》一书中有所阐述，他认为在高等教育情境下，所谓增值是指学校教育对大学生学业成就以及毕业后的工作生活所带来的积极影响，而增值评价即是对这种影响程度的测量[5]，增值评价关注学生从进入大学到大学毕业之前所发生的变化，指出生源质量是大学教育质量的根本体现，真正的质量在于大学对学生认知和情感发展的影响程度，学生在大学期间学习和发展的变化越大，那么学校对学生发展的影响也就越大，因而学校的教育质量就越高[5]。

综上所述，虽然没有哪一种观点得以一统学界，但是通过梳理增值评价的各种概念界定，可以发现学者们对这一内涵有如下共同理解：价值增值的概念是建立在教育可以增加“价值”到学生身上这一假设基础之上的。从宽泛意义上来讲，“增值”是指在一段时间内所实施的教育活动给受教育者带来正面的、积极的影响，是推进受教育者自身获得进步与发展的价值增量。从狭义上来讲，增值评价考察教育教学对受教育者学业成绩影响的“净”效应，通过追踪研究设计，收集他们在一段时间内不同时间点上的学习成绩为评价依据，将进步与变化作为评价的核心，基于对受教育者自身的纵向比较并考虑其他不受学校或教师控制的因素对其成绩的影响，来考量其学业的进步幅度。值得注意的是，增值评价作为一种发展性的评价方法，是建立在符合学校实际、动态教学效能的基础上所产生的概念，它基于学生原有的发展水平，始终专注于教学品质的持续改进，因此增值观的核心指向也发生了从单纯注重学习成绩增长向学生整体性发展诉求的转变。

2 增值评价的理论依据与实施方式

2.1 增值评价理论依据的分析

在欧美等西方国家尤其是美国教育界，针对学生发展理论的研究已有近百年历史，美国高等教育质量评估方面的发展也深受学生发展理论的影响。对学生发展过程、结果及其影响因素深入研究与探讨所形成的学生发展理论是增值评价的理论基石。而增值评价的理论与高校学生学业评价的理论基础一脉相承，同样源自美国的大学生发展理论。

20世纪60年代以来，在心理学视域下兴起于美国心理学界的大学生发展理论是“人的发展理论”在高等教育情境下的运用，本质上来源于人的发展理论的思想内核，描述了大学生发展的某一维度或若干维度，以及经历的阶段或者某一维度的发展过程，其目标是对学生在四年的大学学习与生活中自主发展的过程做出客观化、科学化解释，揭示大学生如何发展成为了解自我、他人及世界的成熟个体的过程，旨在研究大学生的成长与变化。建立在学生发展理论基础上的增值评价理论，提倡充分尊重评价的利益相关者主体――学生的获益诉求，突破了传统评价主体的范式局限，将关切点转移到学生个体成长与发展的主体性建构上，是真正意义上的“以人为本”的培养质量评价。在探讨学生发展理论及其在人才培养质量评估领域的应用中，朱红根据不同的研究视角，把大学生发展理论分为两大类：个体发展理论和变化理论。变化理论从社会学的视角出发，侧重于关注外部因素的影响机制，强调大学生在高校期间的成长是受外在因素影响的因果关系，而个体发展理论多以心理学的视角出发，侧重于关注个体自身内部因素的影响机制，将学生在大学期间的发展更多视为一种自主发展的过程，旨在研究学生在大学期间会发生什么样的变化，以及这些变化产生的过程[6]。因此，这两种理论互为补充，从不同的角度阐释了学生在大学成长过程中的结果和机制。在探讨学生发展理论及其在学生事务管理领域的应用中，美国高校学生事务管理的一个核心的知识领域和理论基础就是大学生发展理论。克里斯汀仁（Krist Renn）将四种（个体与环境理论、社会心理理论、认知与价值观理论、整合型理论）普遍应用于美国学生事务研究领域的学生发展理论进行了梳理和概括[7]，他指出，各种类型的理论并非彼此孤立而截然分开，有些理论难以划归于单一的理论类型，某一特定的理论有可能是跨越性的理论。依据这个观点，对于学生发展理论做进一步的研究是非常有必要的，理论的价值在于应用，但理论成果没有被应用于实践和改进，或者说应用效果的适切性不佳，那么理论的实践意义和参考价值也就无从体现了。

由此可见，增值评价的理论概念并不是静态的，而是与心理学领域的理论与实践共同成长、齐头并进的。一方面，在面对不同的主客体情境与价值导向时，研究者可以从文献中发现评价过程中所涉及的各种心理学概念，各个理论在主要观点上也存在着差异。另一方面，来源于美国的大学生发展理论这一概念虽然在我国也得到了广泛的运用，但在应用过程当中不免会出现跟中国的教育情境不相适恰的问题，目前我国教育界还缺少自主研发的理论基础。中国的大学生发展是否有规律可循，美国的大学生发展理论是否能够描述、解释、预测和指导中国的大学生发展，这还有待深入研究[8]。

2.2 增值评价实施方式的分析

从美国的相关研究来看，学生学业成果是高校增值评价的关键指标。高校学生学业的评价指标通常以学生在知识、技能、能力等方面的参与体验和收获来构建，包括认知与非认知、心理、行为等若干层面，对它们的界定将直接影响评价结果[5]。这些指标获取的途径主要有两种：第一种是具有直接、客观等特点的学生标准化测试；第二种是具有间接、主观等特点的自陈式量表/自我报告型调查问卷。从数据的质量上来看，每一种评价方法对学业成果的反映都有其优势与局限。标准化测试侧重考查学生的学习结果，其优点在于测试成绩的客观性强、尤其是能够直接反映大学生的核心认知能力及增值情况，具有较高的信效度，且数据易于收集和统计，这类数据对改进教师教学及学生学习过程具有重要意义，且有助于在不同学校之间进行学生学习成果差异比较，探索差异背后的深层影响因素[5]。但是标准化测试对大学生的情感、态度、人格等非认知层面的学业成果的测量方面尚属空白，学生主体参加测试的动机和意愿也会直接影响测试结果的效度；相对于标准化测试，自陈式量表/自我报告型调查问卷的亮点在于关注对学生学习的过程、经历、态度、感受等方面的考量，所得数据更能丰富地反映出大学生课内外学习与活动的参与情况以及自我对个体发展与收获情况，但是自我报告型调查量表的测量效度不易建立，理论构思与假设的合理性、科学性及其转换为指标的恰当程度与可操作性都不易把握。

高校学生在就读期间的学习经历和收获存在较大的异质性，评价指标的发散化和柔软化使学生发展的增值情况也很难通过单一的评价工具来获得。“多法并用”是高校学生学业评价方法的有效方式[9]。当前国际教育评估界还缺乏将标准化测试与自陈式自我问卷调查量表相结合的好办法。因此，在未来获取数据信息的过程中，研究者该如何扬长避短，如何寻求两者的相互融合而为增值评价通过一次评估即可同时获得全面的、客观的、动态化的数据信息，是高校学生学业增值评价的挑战。

3 我国高校学生学业增值评价的现实与启示

3.1 增值评价工具的分析

目前，高等教育阶段的学生学业增值评价主要依赖于标准化测试和自陈式量表/自我报告型调查问卷。其中，由2000年美国兰德公司（Research and Development Corporation，简称RAND）和教育资助委员会共同开发的《大学学习评估》（The Collegiate Learning Assessment，简称CLA）、《大学生学术熟练程度与进步测量》（Measure of Academic Proficiency and Progress，简称MAPP）等，这些测量工具主要测量大学生的认知能力，测验数据主要用于评价大学对学生综合能力的提升（即学生能力的增值）[10]，它们是较有代表性的测标准化测试；目前在学界较为流行的由全美高等教育管理系统中心（National Center for Higher Education Management System）、皮尤慈善信托基金会（Pew Charitable Trusts， PCT）与美国印第安纳大学调查研究中心共同研发的“全国性大学生参与度调查”（National Survey of Student Engagement， NSSE）是一种通过对学生投入各项有效学习的程度所展开的调查，它通过从问卷结果中提炼与学生个体学习收获相关的、动态性的、过程性的评价指标，选取相应的模型来构建评价体系[11]，并采用高级统计方法（如Hierarchical Linear Model，简称HLM模型，该模型同时也是增值研究的主流工具）来深入分析各个因素及变量间的复杂关系及直接或间接的影响来实现对大学生学习过程和结果的增值评价，属于自我报告型调查问卷。通过以上途径而获得数据后，所进行的统计分析模型主要有三种：分数差值法、多元线性回归模型（Multivariable Linear Regression Model）以及多水平分析模型（Hierarchical Lineaer Model，简称HLM），它们目前是美国所采用的主流分析模型。其中，从评估频率（Frequency of Assessment）上看，增值评价拥有多个比较基准，在纵向评估（Longitudinal Assessment）的过程中可以对时间序列上所产生的发展与变化进行有效比较，这是增值评价模型成为当前美国教育评价主流原因之一[12]。

事实上，通过研究发现并得出结论，增值评价不存在世界范围统一的评价模式。受实际因素的影响，在同一国家内的不同地区尚且存在不同的评价模式，统计方法与评价模型本身的不断完善与发展的动态过程也使评价结果受模型变化的影响较大，通过不同的模型对同一套数据进行分析，所得出的结果也不尽相同[13]。综上所述，鉴于学习活动本身是一个动态的、多维度的活动，因此对探索构建评价的过程性指标就别具意义，评价工具的开发者也频繁地使用那些能够体现“价值增值”的要素来构建测量维度。这对增值评价在我国高等教育界的推广提供了技术与信念上的支持。

3.2 增值评价实施过程中的价值与准则

在教育学语境下，所谓的“价值”是由一群社群、团体或个人所坚持的完美典范，或者是相关优点的归因，或对象的有用性所构成[14]，价值是开展评价活动的基石。“评价”属于一种价值判断活动，任何评价都与评价人的价值选择有关，评价方依据价值的明确来展开评价。与此同时，价值提供并导出了评价准则的基础，在测量一项评价活动的价值或质量时，评价方所基于的那些共同认可的原则，即为准则。价值与准则共同引导了评价工具的建构与评价标准的阐释方向。价值的明确活动在评价过程中是持续不断的，对完成评价任务来说，这是一个挑战。从某种意义上来说，评价过程中的价值与准则是完成评价任务的灵魂构成，它们也是一种方向性的要求，从某种程度上来说，它直接制约着学生的学业发展。因此，增值评价的价值澄清与准则说明它们跟评价的设计与实施间应该保持流体般的交互状态，两者的研究进度不能截然脱离，不能只停留在某一界面上进行单独的改良与革新。

在保存与维护并提升美国社会共同利益的过程中，存在着一种十分重要的普世价值观：针对社会所有方面，都应进行共同、全面且持续的努力来改善质量，所有行为都应致力追求卓越。由此，美国教育界的高等教育质量运动带来了一种共同的学习责任感、一种倾听服务对象心声的习惯、一种数据偏好、一种持续提升的道德、一种充分开发每一位学习者才能的决心，还有一种认同，就是工作上对同事和服务对象负责的义务[3]。同时，增值评价对学业评价的目的提出了价值澄清的要求，价值澄清的目的在于教育政策制定者通过选择和实践过程来增进赋予理智的价值选择。正是这些被突显出来的价值诉求孕育了对追求高等教育卓越的思考和探索，为我国的高等教育评价的理论研究注入了新的活力。

3.3 对我国的启示与借鉴：以教育公平促进高等教育质量卓越

公平是社会与教育的核心价值，也是教育灵魂卓越的要素。推进教育公平作为社会公平和正义的基础和先行条件，是促进教育发展从规模扩张向质量内涵转型发展的关键。保障教育公平和提高教育质量是追求教育卓越的两个重要维度，也是当今世界各国高等教育发展的共同目标。从整体上来讲，我国的高等教育大众化在“量”的层面上是对教育公平起到了促进作用，但是在“质”的表现上就不尽理想。“质”的公平将逐步成为我国高等教育公平问题的核心要素，如何促进质的建设是评价活动的价值所在。在我国实施高校学生学业增值评价的意义在于促进教育公平、提高教育质量，保障每位受教育者都能得到充分的发展。

增值评价的正向功能之一便是鼓励高等教育公平比较。学生作为受教育的主体，他们在生源质量、就读经验、学业成就方面并不都在相同的水平上，这需要关注群体间的差异，或许应该提倡这样一种比较的方式：例如，只比较生源质量相类似的高校学生或只以学生的家庭社会经济地位（SES）、学习成就动机等维度来预测学生的学业成绩并作出评价，针对不同学生群体的起始点差异做出的调整，需要注意的是，这种做法并不意味着对学生低水平的学业表现予以合理化，而是强调在增值的语境下，应唤起教育政策制定者的调整与控制变量的意识来完善学生学业评价信息系统，并着力思索发掘那些在一定程度上所能改变的变量（如学生学业课程量）来调整评价技术，确保关注到每一位受教育者的学业进步幅度。长期以来，我国高校缺乏对增值作用的认识，同样也缺少对学生学业进步幅度进行评价的理论与实践。在我国传统的高校学业评价偏重于对学生的分数鉴定、知识技能考核、评奖评优等方面的解释，却往往没有将学生在就读过程中的体验与收获、感悟等因素纳入其中，这样择优评劣的背后所反映出的问题是：只要没有被纳入到所谓的“主流”测量范围内，学生学业在客观上即使在不断进步，他们的学业水平依然得不到应有的赞可。实际上，院校教育影响力、学生学业基础与就读经验均存在客观差距，这种非均衡格局在短时间内是难以消除的，因此成功的教育评价始于评价目的的价值澄清。应该站在欣赏学生进步的视角，寻找学生个体的价值，对不同基点的学生做不同程度的要求，给予不同层面的评价，不以学生的绝对成绩而以学校对学生学业的增值幅度作为评价尺度，并营建一种“人人可成才，个个能成功”的教育氛围，通过增值理念来调整与完善评价目的，重新设计学生学业评价体系，必将推进教育的均衡发展并直接作用于高校教育教学质量的提升。

随着大数据时代的来临，增值评价法作为一种发展性的动态评价方法吸引了越来越多的关注。其评价结果是高品质教育的有力表征，它能有效引导国家、政府、学校从注重投入到注重教育全过程，以培养成效和学生受益为检验教育效力的标准，给教育价值的考量创造了前所未有的可量化的维度，为提高人才培养质量拓出了全新的进步空间。正是在像这样的因素驱使之下，增值评价作为我国高校学生学业评价的重要方法，对它的研究正逐步开展。高校学生学业评价是人才培养质量保障工作的重要一环，在检查教学质量、加强学生管理有效性等方面都具有重要的意义。将增值评价渗入到高校学生学业评价中，无疑是对我国高等教育质量评价体系的有益补充，并有效地推进高校学生学业评价研究对丰富、完善我国高校教育评价理论具有实践意义。

参考文献

[1]薛海平，王蓉.教育生产函数与义务教育公平[J].教育研究，2010，（1）：9-17.

[2]章建石.增值评价法――关注学生的实际进步[J].评鉴双月刊，2007，（8）：2-3.

[3]Tekwe CD，Carter R L， Lucas M E et al. An Empirical Comparison of Statistical Models for Value-Added Assessment of School Performance. Journal of Educational and Behavioral Statistics，2004， 33，（3）：261-295.

[4][英]萨丽托马斯.运用“增值”评量指标评估学校表现[J]. 教育研究，2005，（9）：20-27.

[5]Alexander W A.Achieving educational excellence：A Critical Assessment of Priorties and Practices in Higher Education[M]. San Francisco：Jossey-Bass，1985：23，60，61.

[6]朱红.高校人才培养质量评估新范式――学生发展理论的视角[J].国家教育行政学院学报，2010，（9）：51-52.

[7]克里斯汀仁.学生发展理论在学生事务管理中的应用――美国学生发展理论简介[J].李康，译.高等教育研究，2008，（3）：21-25.

[8]李奇.试析美国本科教育质量评估中的问卷调查[J].比较教育研究，2008，（3）：70-75.

[9]Astin A W.What matters in college： four critical years revisited [M].San Francisco：Jossey-Bass，1993：41-43.

[10]Long D.Theories and Models of Student Development[M]// L J Hinchliffe， M A Wong（Eds.）.Environments for student growth and development：Librarians and student affairs in collaboration.Chicago：Association of College& Research Libraries.2012：41-55.

[11]Evans N J，Forney D S，Guido-DiBrito F.Student Development in College：Theory，Research，and Practice[M].San Francisco： Jossey- Bass Publishers，1998：11.

[12]Peter T E.Assessing Educational Outcomes. New Directions for Institutional Research[M]. San Francisco， California： Jossey- Bass，1985：1.

教育测量与评价论文范文第4篇

关键词：新课改；教师评价标准；结果评价；教育质量

中图分类号：G521 文献标志码：A 文章编号：1673-291X（2012）09-0281-02

一、对教师教育结果评价的传统标准

考试制度在中国的历史发展进程中具有重要的地位。早在商周时期，科举取士制度就开始萌芽，直至隋唐时期发展成熟[1]。虽然这一制度随着清王朝的终结而被废止，然而它对全世界的影响直至今天也是根深蒂固的。现代考试制度仍然把普通全日制学校学生理论知识学习的结果作为评价教师教育结果的唯一评价标准。并把教育测验作为评价教育质量的唯一客观方式。传统的教育测验相对于当时的社会发展基本状况有着理论与实践两方面的长足进步。

1.目前教育评价方式的理论假设。在科举制度产生之前，国家的用人制度大多采用举荐、推选和世袭等方式。这些方式在最初人类社会生活组织形式较为简单的氏族社会和贵族社会，是能够适应管理社会生活的要求的。然而随着社会分工的日益细密，人类社会生活的复杂化，这些简单的人才选拔方式由于其主观性已不能满足社会发展的要求。“还会有什么事能比选择一位王后的长子来治理国家更加没有道理呢？我们是不会选择一个出身于最高门第的旅客来管理一艘船的。” [2]同样，人们有时出于私利，并非总能够选出或者推举最合适的人选来管理大家的日常事务。出于这样的原因，人们采用了测验这样的方式，尽可能的保证选拔人才的客观性。这相当于制定了一个对于所有人来说机会均等的选拔制度。毕竟，其一，这种方式理论上使所有具有潜力的人都有参与的可能性，其二，可以对参与者的学识根据其作品做出相对客观的评价，而非进对其表面言谈举止做出片面的判断。其三，这种选拔方式有利于教育朝向有目的、系统化的方向发展，使社会培养人才的方式和效率得到改良。

2.教育测验，可具体操作的人才选拔方式。相对于推选、举荐和世袭的用人制度，教育测验在实践操作中也具有规则执行和过程监控方面较为简便的优势。世袭的方式暂且不论，推选和举荐在具体操作时比较费时费力，其结果也具有较大的主观性。庄子说：世俗之人，皆喜人之同乎己而恶人之异乎己也[3]。这个说法符合人们日常生活的一般经验。从这个一般经验出发推论，让公众推选出大多数人都认可的优秀的人才一般只具有理论上的可能性。因为公众的客观性从一般意义上说从某种程度上总大于个体的客观性，这个一般经验同样适用于举荐的情形。从这个一般经验还可以进一步推断，每一个体主观性的相加将有可能大于任意个体的主观性，而所有个体的客观性之和也并不会大于任意个体的客观性。因为客观性并不会产生于从个体私利出发的不同意见的争论，而更有可能产生于少数个体的智慧。然而，人们却可以商定它们所处社会优秀人才所具有的品质，并把此作为选拔人才的一般标准。然后，人们可以从这些一般标准出发，据此制定教育测验所应包含的基本结构。

二、传统教育测验评价标准的局限性

1.测验结果的偶然性。传统的教育测验往往把一次考试的分数作为教师某一阶段教学结果的评价标准。虽然这种方式比教育管理部门的主管随意判断具有客观性，但这种客观性所具有的公平与公正是具有偶然性的。首先，一次考试的结果的准确性总是会遭到种种质疑，除非这次考试试题的设计具有理论上的完美；接受考试的学生处于相同的外部环境；并且都充分的展现出了真实的学习水平；对考试结果进行评判的教师也具有理论上的严谨；如此等等。其次，在同一受教育阶段，例如小学阶段，每次测验的内容以及难易程度只具有理论上的一致性。尽管教学大纲规定了每一学习阶段应掌握的内容，并描述了对这些内容应考察的难易程度，如果试题的设计者没有对每一次考试做出整体规划的意识，就不能保证多次考试结果的一致性。

2.对测验结果解释的随意性。当前，各种教育测验的结果仍然是原始分数。如上所述，每一次考试的原始分数具有偶然性，不仅如此，人们在解释这一测验结果时，往往把量的差异当做是质的差异，并以此作为奖惩的依据。微小的量的差异是具有偶然性的。这种偶然性的差异并不具有实质性意义。传统的排列顺序的比较方法无法把量的差异与质的差异区分开来。相对而言，应用统计学为分辨这种差异提供了一个有效途径。但目前尚未见到使用统计工具对考试分数做系统地分析。而用排列顺序的简单方法，把微小的分数差异作为评价教师某一阶段教学结果评价的标准，这一做法貌似公平，实则由于评判标准的粗燥却是不甚合理的。然而更重要的是，相对于社会对人才的具体要求而言，测验的结果在理论上被夸大了。目前，随着课程改革在理论与实践层面的不断深入，测验的内容和形式和学生的实际生活联系越来越紧密。但由于绝大多数基础教育阶段的教师对课程改革目标理解的程度不够深刻，在设计测验时不能把新的课程目标体现具体的考核内容之中，测验结果也因此仍然是传统意义上的对基本知识和理论的复述和基本运用。对学生的能力提高和情感、态度与价值观的获得与发展的评价并没有体现在测验内容和形式之中。课程改革目标体现了教育政策制定者针对具体的社会发展对教育实践的基本要求。如果当前的教育测验不能与这个课程目标有效结合，那对测验的结果的解释就会被夸大。

3.测验内容取样的代表性。因此，在设计测验内容与形式时，就必须从新的课程教育目标出发，有针对性的提高试题取样的代表性。首先，应在设计测验结构时事先划分好考核代表三个范畴的课程目标的试题的比例。应具有把能力与情感、态度价值观作为考核内容的意识，然后再根据具体教学内容制定测验的基本框架。其次，结合社会对学生在未来生活中要求，编制试题的具体内容。譬如初中阶段的数学教育重在培养符号转换与运算的逻辑思维能力、思维的条理性、热爱理性的情感以及对客观事物严谨的、审慎的态度。那么，在设计测验时，就可以体现在试题的具体内容之中。最后，试题的形式要结合学生的实际生活，灵活、多样。任何知识与基本理论都来自于人们对生活经验的概括和总结，因此，它也可以被还原为生活中的具体问题，而只有还原为生活经验的知识与理论，才能被学生有效内化为能力、态度与价值观。

三、建立结合社会发展要求的评价系统的理论必要性和实际可能性

1.教育大纲体现社会对人发展的要求。根据社会发展的具体现状，国家调整了教育工作的目标，教育管理部门组织教育领域的理论工作者们根据国家教育改革的政策性文件所规定的目标编制了各教育阶段的新的教学大纲。这一教学大纲实质上是系统性的每一阶段、每一学科课程的较为细致的教学目标。它体现的是国家为使每一个未来的公民能够适应并促进社会发展，在特定的成长阶段应该达到的理想目标。因此，教育质量提高与否，应把在教学活动中学生达到这些目标的程度作为唯一的评价标准。然而，对这个评价标准的不同理解，决定了对教师教育结果评价的不同形式和内容。要客观的理解这个目标，如果不从社会发展的宏观历史层面和当前社会生活具体层面出发，这个理解便是晦暗不明的，如果不把这二者结合起来，这个理解便是片面的、武断的。缺乏对这二者联系起来的系统考量，就不能把这个目标体系落实到具体的评价措施中去。首先，相对改革初期而言，在社会变革的新时期由于经济的快速发展所带来的社会的阶层的暂时分化成为影响社会稳定的首要因素。与此同时，随着对外开放而涌入的新的价值观念与传统价值观念的冲突与融合正在进行之中。因此，积极情感、态度和价值观的培养就成了现在和未来一段时期教育工作最紧迫的任务。其次，中国正处于社会生产由劳动密集型向技术密集型转变的关键时期，科学技术创新是国家经济发展的首要推动力。因此除对掌握基本理论知识的要求而外，创新能力的培养也是当前教育工作的核心任务。现在所需要的，是建立一个结合社会发展要求的评价系统。

2.教育评价与教育大纲结合的有效性。理论上的必要性与紧迫性并不意味着现实的可能性。在现实与预期目标之间总要付出一定的努力。预期目标越是远大，需要付出的劳动越是艰辛，也越是需要较长的时间。其中主要的影响因素包括以下两个方面。其一，由于中国的教育管理体制的原因，各种教育改革活动总是自上而下进行的，因此，各级、各类教育机构管理部门观念的更新是转变传统教育评价方式的关键因素，尤其是在基础教育阶段，这一转变需要更长的时间。引起行为改变的原因一者在于外界环境偶然因素的刺激，一者在于一以贯之的教育与宣传。如果偶然因素所产生的刺激不足以引起质的变化，其所诱发的行为改变也会是暂时的，表面的。而持续的目的明确的教育与宣传，却能使量的变化逐渐累积为止的变化。后者的作用显然要强于前者，不过后者所要付出的劳动时间和程度也会多于前者。其二，教师教育与新课程目标的紧密结合是实现新评价方式的基础。评价方式的改变只是促进教育质量提高的外部因素，它能够起到引导教育工作一线的教师教学目的与方法的改变。不过教师劳动的结果如何，最终取决于其自身的专业素养。譬如如何领会各种国家教育政策、教育方针所指向的社会现实需求；如何灵活的运用所学的教育学与心理学知识与理论，把握学生在认知、情绪、自我意识、态度与价值观各领域发展的实际水平，灵活运用教学方法与规律，有效促进学生的实质性发展；如何与同行和教育理论工作者开展合作性研究，解决在教学实践工作中碰到的具有挑战性的实际问题，提高自身业务水平，从而提高教育质量。最后，应明确教育评价的目的主要在于诊断学生在某一学习阶段各方面实际发展的具体情形，有助于教师与学生及时发现问题，查漏补缺，长善救失，对教师劳动结果的衡量以及在此基础上的奖励与惩罚到是一个次要目的了。

参考文献：

[1] 金瑜.心理测量[M].上海:华东师范大学出版社，2005:5.

教育测量与评价论文范文第5篇

[关键词]多元概化理论；托幼机构；教育质量评价

[中图分类号]G617[文献标识码]A[文章编号]1004-4604（2013）10-0022-05

托幼机构教育质量评价是一项极其重要的工作，20世纪80年代末以来，我国就始了示范园和幼儿园分等定级的评估实践，一些地方性的幼儿园评估标准也陆续出台。但是，现有的大量研究（刘焱，1998；戴爽翔、刘霞，2003；刘丽湘，2006）与实践均表明，我国托幼机构质量评价的过程不够严谨、评价的信效度不高、评价标准未经检验，评价的科学性存在着明显的缺陷。

托幼机构教育质量评价是一种多人参与、多维度展的复杂的评价活动，其评价结果的准确性受到评价者、评价项目和评价情境等多方面因素的影响。在考察评分者信度时，我们常常运用求两个或多个评分者独立评分间相关的分析方法（例如有多个评分者时计算肯德尔和谐系数）。但实际情况是。当有两个或多个评价者对不同的幼儿园进行评价时，评价者间的任何系统误差都会影响评价者信度。比如某幼儿园因为由对标准的掌握相对较宽松的评价者来测评而导致得分偏高，而另一幼儿园因为由对标准的掌握相对较严的评价者来测评而导致得分偏低。当我们把不同评价者的评分放在一起比较时，每个评价者的系统偏差从总体上就构成了随机误差。因为他们的评价结果被放在了同一个参照系统中处理（如求算术平均数等），这样一来，肯德尔和谐系数就不能准确反应评价者信度的高低，评分者之间的相对一致性较高而系统误差却很大，这时的评价者信度并不高。不仅如此，这种传统的信度分析方法（如相关分析法）无法分解评价中的各种误差来源，难以考察因测量情境关系变化而引起的误差变化，缺乏一个综合统一的评价指标对多维度的评价活动进行信度分析。当多个评价者进行多维度测评活动时，运用多元概化理论（Multivariate Generalizability Theory，MGT）可以进行更深入、更精确的分析。

概化理论运用实验设计的思想，采用方差分析的统计分析技术，可以分析测评中的各种变异来源，并对此进行分解、估计与控制。近几十年来，概化理论因应实践的需要，已从单变量概化理论发展到多元概化理论。单变量概化理论主要用于单个维度的测评和分析，多元概化理论则主要用于多维度的测评和分析，尤其是面对多维度复杂测量与评价情境，多元概化理论对分析测评误差的来源、提高测评的精度、提升测评的质量具有重要的意义。

一、研究方法与过程

（一）研究对象

根据浙江省各地区不同的经济发展水平。研究者在经济发展较好、一般和欠发达的三个地区抽取了来自市、县、乡村三类行政区域的22所托幼机构的48个班级作为研究对象。

（二）评价工具与评价过程

本研究所使用的托幼机构教育评价工具是《中国托幼机构教育评价量表（试用版）》（以下简称《量表》）。《量表》共包括七个子量表，采用7点记分方式。评价者主要通过班级观察的方式进行评分。其中第七个子量表（对家长与教师的支持）主要通过对家长和教师的访谈收集信息，但研究者发现，其中的一些项目，大部分受访者无法做出清晰回答，说明该子量表需加以修订和完善。为此，本研究仅对前六个子量表的评价结果进行多元概化分析。这六个子量表分别是：空间与设施、幼儿保育、集体教育活动、幼儿游戏材料与活动、互动和一日活动。

（三）评价方案的设计

本研究共有12名评价者（r）运用《量表》对48个班级（c）进行了观察和评分。评价者为高校学前教育专业的教师和研究生，他们都曾参与《量表》的研制工作，并接受了规范的评价培训和施测训练。一般情况下，对同一班级的评价在同一时间由2-3名评价者独立进行。我们把托幼机构班级作为评价目标，评价者和量表作为测量侧面。其中，量表为固定测量侧面，评价者为随机测量侧面。量表包含六个子量表，所以我们从六个方面进行评价。我们把测量设计看作是单侧面的多元嵌套设计，即评价者嵌套于幼儿园班级（r・：c・）。

（四）数据格式与处理

评价者观察和评分工作结束后，我们对每位评价者的评价结果进行了整理，形成以下格式（如表1所示）。基于各子量表的平均数，我们运用多元概化分析软件mGENOVA进行分析。

二、研究结果与分析

根据概化分析的基本步骤和主要内容，我们对G研究和D研究分别加以报告与说明。

（一）G研究结果

G研究是指在一定测量情境条件下，收集资料，设计方案，并进行试验性测试，求出各种方差分量的阶段，结果如表2所示。表中对角线上的数据为方差分量，它表示各子量表所能解释的变异情况。首先我们分析效应c（托幼机构的班级）在各子量表上的方差分量，其中子量表一（空间与设施）的方差最大。这说明在此次评价中，它的作用最大。其次是子量表二（幼儿保育）和子量表五（互动），最小的是子量表三（集体教育活动）。对角线上方的数据为相关系数，从表中可以看出，各子量表间的相关系数均在0.7以上，这为对各子量表的评价结果进行综合分析提供了一定的实证依据。对角线下方的数据为协方差分量，它表示该变量与其他变量间的共变性。从表中可以看出，相比较而言，子量表三（集体教育活动）与其他五个子量表的协方差较小。这表明此次评价中，在区分质量高低方面，子量表三较其他子量表相对差些。效应（r：c）在各子量表上的方差协方差矩阵由两部分组成：评价者的误差方差协方差、评价者和托幼机构交互作用的误差方差协方差。从表中可以看出，该效应在子量表二上的值最大，在子量表四上的结果最小。这其中的原因是什么？是评价者的评价不一致造成的，还是评价者与托幼机构的交互作用引起的？也许受嵌套设计的局限，目前我们还无法做出进一步的解释。

（二）D研究结果

D研究是指在改变某些测量情境条件下，利用G研究所获结论，去考察如何提高测量信度，改进测量效度的工作。改变测量情境条件包括增加或减少评价者、增加或减少评价项目、固定测量侧面等。本研究在嵌套设计的基础上，主要从不改变测量情境条件和改变评价者侧面两个方面进行探讨。

1.测量情境条件不变的D研究结果

测量情境条件不变的D研究结果如表3所示，表中全域分数方差结果即表2中的对角线分量（具体说明见上）。可靠性指数是指测量目标自身的分数变异在总的分数变异中所占的比率，数值越大说明测量的精度越高。从表中可以看出，各子量表的可靠性指数均在0.9以上，同时绝对误差方差都较小，说明各子量表的评价一致性比较好。可靠性指数最高的是子量表一，最小的是子量表三。另外，对各子量表的可靠性指数加以合成用以估计总体评价精度的指标，即合成可靠性指数为0.97526，表明这次评价的总体准确性也较高。信噪比指标表明全域分数变异和误差变异之间的差值，如子量表三的绝对信噪比是10.043494，表明在这些分数中全域分数变异大约是误差变异的10倍。

2.改变评价者侧面的D研究结果

我们通过改变评价者侧面的人数进行了D研究。托幼机构教育质量评价是一项十分繁重、费时、费力的评价工作。本研究中，我们设计了以下几种方案：评价者人数分别为1人、2人、3人、4人和5人。为便于分析，我们又增加了部分机构由2人评价，部分机构由3人评价（为便于表述，简称部分2人部分3人，下同）这一种情况。我们讨论的主要问题是，在六种评价者侧面人数不同的情况下，各子量表的可靠性指数及合成可靠性指数的情况。

从表4可以看出，在六种不同评价者侧面人数下，各子量表的可靠性指数均在0.85以上，说明精度都比较好。相比较而言，当评价者侧面人数只有1人时。可靠性指数相对来说是最低的，当评价者人数为5人时，可靠性指数是最高的。虽然随着评价者人数的增加，各子量表的可靠性指数在提高。但是提高的幅度在逐步减小。比如，当评价者人数从1人增加到2人时，子量表一的可靠性指数变化了0.02592；当评价者人数从4人增加到5人时，子量表一的可靠性指数仅增加了0.00253。

另外，对评价者人数为2人和部分2人部分3人两种情况进行比较时发现，在某些子量表上的可靠性指数大小近似；对评价者人数为3人和部分2人部分3人两种情况进行比较时发现，前者各子量表的可靠性指数较后者要大。

合成可靠性指数结果如表5所示。当评价者人数从1人增加到5人时，合成可靠性指数在不断增加，这说明总体评价精度在不断提高，但提高的幅度在逐步减小。

三、讨论

本研究采用多元概化理论对托幼机构教育质量评价的实际情况进行了分析。在所考察的六个子量表当中，子量表一（空间与设施）的方差分量最大，子量表三（集体教育活动）的方差分量最小；另外，子量表三与其他各子量的协方差也相对较小。子量表一主要是对托幼机构设施、设备等硬件环境进行的观察评价，评价者易观察、易评价，这可能是其评价信度较高的一个重要原因。而子量表三主要是对集体教育活动进行的观察评价，每位评价者所观察评价的活动各不相同，这可能是导致其评价信度较低的原因之一。另外，各子量表的可靠性指数均在0.8以上，合成可靠性指数也在0.9以上。这说明在各个子量表上评价者的意见比较一致，同时总体评价的一致性也比较好。

教育测量与评价论文范文第6篇

关键词：高校；学业评价；公正

中图分类号：G641

文献标识码：A

文章编号：1672-0717（2015）01-0059-05

收稿日期：2014-11-30

基金项目：湖南省教育科学“十二五”规划2012年度项目“高校有效学生学业评价研究”（XJK012CGD002）；湖南省社科基金项目“高校发展性学习评估的国际经验与借鉴”（13YBA077）；全国教科规划教育部重点项目“高校学业评估的国际比较研究”（DIA130302）。本文同时受湖南大学青年教师成长计划经费资助。

作者简介：刘声涛（1976-），女，江西萍乡人，教育学博士，湖南大学讲师，主要从事高校教学与学习评估研究。

《高等学校章程制定暂行办法》实施以来，教育部核准了多所大学的章程，这些章程对学生学业评价工作的表述高度一致，即：学生公正地获得学业上的评价。这个表述中有两个看似平常实则复杂多义的概念：公正、学业评价。博登海墨（Edgar Bodenheimer）说：“公正有一张普洛透斯似的脸，变幻无常，随时可呈不同形状，并且有极不相同的面貌。当我们仔细查看这张脸并试图揭开隐藏其表面之后的秘密时，我们往往会深感迷惑。”[1]在不同的时代与人类活动中，人们对公正的涵义有不同的理解，不同的学者对于公正也有不完全相同的阐述，迄今尚未形成一个统一的公正论。教育领域中的评价是一个正在发展中的概念，其内涵在不断地扩大与丰富中。国际上，学生学业评价近几十年正在产生教育评价历史上从未有过的变革[2]。当公正与学业评价两个复杂的概念在一起时，有必要了解高校行政管理人员、教师、学生如何理解公正评价学生学业，这种理解是否有偏差，如果有偏差那么更合适的理解又是什么。章程是高等学校依法自主办学、实施管理和履行公正职责的基本准则，探讨上述问题有益于高校章程制定及以章程为依据来办学。

一、对高校公正评价学生学业的实际理解

有三方面的证据表明，当前我国高校学业评价相关群体主要将公正评价学生学业理解为通过以考试为主的方式来给予学生应得的分数或等级的活动。第一方面的证据来自于学生调查。2014年1月，笔者在某高校对大学生进行了学业评价书面调查。调查包括三个问题：（1）大学期间，你的学业有没有得到公正的评价？（2）请给出你或同学的学业被不公正评价的例子；（3）你认为被不公正评价的原因是什么？学生针对这三个问题主要围绕教师如何考及如何评分作答。第二方面的证据来自于高校相关政策文本的分析。有研究者对E大学学生评价管理机构的管理职责、课程学习评价规定、学生实习评定和毕业论文评定的相关规定、毕业资格和学士学位授予资格的政策文本进行分析，发现我国现行高校对学生评价的理解与要求是以专业知识为主要评价内容，以考试为主要手段进行考试成绩鉴定[3]。第三方面的证据来自于研究文献的内容分析。以“高校、公正、评价”或“大学、公正、评价”为关键词在CNKI数据库中查询到论述高校公正评价学生学业相关问题的3篇论文，这些论文对公正评价学生学业的界定都是给予学生客观公平的学业成绩。可见，人们对于高校公正评价学生学业的理解与实践主要是围绕学业考试和评分进行，评价即考试，公正即评分准确。

注重考试和评分的学业评价活动发挥了评价的测量功能：收集并量化信息。从测量功能角度理解学生学业评价并不奇怪。我国考试文化盛行，在不少人看来，学业评价即考试是自然而然的。首先，考试在我国有长期的历史。1930年教育评价专家泰勒（R.W.Tyler）开始在教育领域使用评价一词，此前评价学习的术语就是考试和测验，而西方的考试和测验发展的源头正是我国的科举制。其次，我国人口众多，经济尚欠发达，社会诚信体系不成熟，考试依然是对社会有重大影响力的人才选拔手段。

测量意义上的公正评价学生学业要求评分准确。简单地说，公正是在一定社会范围内通过对社会资源的公平合理分配使每一个成员得其所应得[4]。测量意义上的学生学业评价分配什么？最容易被想到的就是学业评价的直接分配――分数或等级。直接的分配类似于代币，用来获得真正的分配，如保研资格、奖学金、工作机会等社会资源或和社会资源密切相关的东西。分数或等级是学生学业成就客观真实状态的数字表征，公正则意味着数字表征准确或地位表征准确。数字表征准确指数字完全和学生学业成就客观真实状态相符。因为公正主要和分配有关，数字对学生学业成就在其团体中所处位置表征准确也能确保学生在分配时得其所应得，这就是地位表征准确。本文中将数字表征准确或地位表征准确统称为准确。

二、测量视角下公正评价学生学业的挑战

研究者若对测量意义上的学业评价的基本技术有更多的了解和思考，会发现准确评价学生学业在测量的各环节上都面临着挑战。

首先是收集哪些方面的信息。学业评价需要收集学生在预期学习成果上的表现信息。高校中的学业评价主要是课程学业成就评价。为了保护高校教师的学术自由，同时也因为高校课程多且不断变化，课程应该有怎样的学习成果由教师自行决定。在制定高校学术标准和质量标准方面世界领先的英国高等教育质量保障署（Quality Assurance Agency for Higher Education， QAA）也仅是在学科层次上制定基准，不再细化到专业、课程层次。表层上，教师理解课程、设定合适的教学目标的能力以及个人风格等方面的差异导致课程目标多样化。深层上，课程到底该取得何种学习成果及价值判断，原本就是一个难有统一答案的问题。因而，不同教师授课的同一门课程上被评价的很可能是学生不同的学习成果的表现。

其次是用什么评价方法去收集信息。按学生在评价活动中要做出的反应，测量学意义上的学业评价可分为选择――反应评价和建构――反应评价。选择――反应评价包括选择题、判断题、匹配题等需要学生找出答案的评价形式，建构――反应评价包括论文题、表现性测试、档案袋评价等需要学生自己产生答案的评价形式。每种评价方式都有其适用情形及局限。选择――反应评价能考察学生大范围的知识掌握情况，易于计分，但难以考察高层次能力；建构――反应评价能引发学生在高层次能力上的表现，但难以对学生的真实状况做准确推论，难以计分。迄今为止，从测量技术上没有找到能很好地克服每类评价方式局限性的方法。

再次是收集多少信息。由于用于信息收集的时间有限，实际工作中只能在预期学习成果中选择若干并设计有限的评价任务，因而学业评价只能测量学生特定的、有限的行为样本。测量实质上是对学生的真实状态作出推论，推论基于有限的行为样本，同时推论本身会有或多或少的误差，这些都导致评分有误差。

最后是收集到的信息如何量化。选择――反应评价具有易于计分但难以测量高层次能力的特点。高等教育的重要教学目标，如理解分析综合能力、沟通合作能力、自主学习创新能力等都需要借助建构――反应评价方法来评价。教育测量学中，建构――反应评价的评分者一致性受到高度关注。因为高等教育的重要教学目标难以量化，人们希望至少不同评分者对同一行为样本的评分不要相差太远。但这种对评分者间一致性的期望也面临挑战：评分者的标准设定或对已有标准的理解不尽相同，同时教育测量学已经证实学业评价中各种心理效应导致的评价偏差客观存在且难以克服。基于评分的困难，波帕姆（W.James Popham）等著名教育评价专家都认为应对论文题或档案袋评价的使用持谨慎态度[5]（P139）。

事实上，对测量技术有更多了解和反思的学者对考试有着冷静而客观的认识。波帕姆认为应该降低教师对分数能反映学生实际成就水平的迷信[5]（P28）；沃尔弗德（Barbara E.Walvoord）建议放弃拥有完美、简单的等级评分体系的幻想，接受它会有缺陷和限制的现实[6]（P10）；刘易斯（Harry R.Lewis）认为分数决不可能成为准确比较不同学科成绩的标尺，即使在一门课程内，分数也是不准确的[7]；韦墨（Maryellen Weimer）指出分数能够精确地衡量与客观评价学习的认识是错误的[8]。

可以说，准确评价学生学业是一种误解和想象，但当前我国高校却对它有着过度的依赖和关注，并且高校教和学中的很多负面现象都和这种依赖和关注有关。

尽管多数教师不能从测量技术的角度说清楚给学生准确评价学业有多困难，但是他们会感受到这点，尤其是面对建构――反应题时。有的教师会因没有合理评价学生而内心不安，还有教师担心评分不合理导致学生投诉。为避免评分可能带来的麻烦，高校教师经常使用以下策略：（1）抬高分数。给全体同学更高的分数，尽管这对于优秀的学生不公正，但可以避免因评分过低而被学生投诉；（2）对学生按正态分布评分。正态分布是众所周知的能力分布，按正态分布分配不同分数等级的人数比例，这样使得分数看起来很正常；（3）尽量用选择――反应题。选择――反应题好评分，在理工科的测验中普遍使用；（4）秘而不宣的标准与任务。若公开标准与任务，教师担心学生通过不同的渠道做准备，导致分数看起来不符合学生水平。

一直以来，大学生学习研究不断地证明着学业评价对于学生学习的影响[9]。学业评价过于依赖与关注考试对学生的负面影响包括：（1）肤浅学习。选择――反应评价主要考查记忆、再认等低层次的认知能力，这只需要学生的肤浅学习即能应对。即便是形式上的建构――反应评价，若没有对题目及评分进行精心设计，也可能只是考查学生低层次能力。（2）突击学习。考试发生在学习告一段落后，再加上考察低层次能力，学生完全可以通过突击学习通过考试，部分学生甚至还能获得高分。（3）舞弊。既然评价注重的是分数而不是学习，学生就会想方设法获得分数，包括以舞弊的方式。（4）对课程的误解。事实上，学生是根据学业评价而不是教师的课程介绍来定义课程[10]。一门只要求死记硬背的课程在学生眼中就是枯燥无味、干巴巴的。不合适的学业评价会让学生对真实的成人智力世界产生误解。（5）失去通过学业评价调整自己学习的机会。考试在学期末进行，没有反馈，而反馈被认为是改进学习的核心要素。

三、高校公正评价学生学业：以改进学习为首要目标

面对测量意义上公正评价学生学业的挑战，自然要提高测量技术，以不断提高对学业的测量能力及测量准确程度。更重要的是，要意识到并承认考试固有的局限性。承认这种局限性不仅是正确使用考试的关键，更是一种基本的科学态度，它告诉我们要改变对考试与分数的过分依赖与关注，正确认识公正评价学生学业的内涵。

首先要正确认识学业评价的内涵。在过去的几十年中，学业评价被不断地审视与反思。早在1930年，泰勒开始在教育领域使用评价概念，提出评价比考试和测验有更多的功能和目的，认为教育评价仅用于检测学生的成就是不够的，同时也要关注课程内容、课程形式、学生活动、学习的多种结果。20世纪60年代初，克龙巴赫（Cronbach，L.J.）建议评价者们重新确定评价的概念――不是根据竞争的成绩，而是作为一个搜集和报告对课程研制有指导意义的信息过程，强调评价的诊断和反馈作用[11]。可见，在评价的最初发展阶段，学者主要就“什么需要被评价”及“评价起什么作用”扩展了评价的含义，认为评价的功能是信息收集及分析反馈，这一功能不仅学业成就检测上需要，与学习相关的多项工作上都需要。在此阶段，教师被认为是评价的组织实施者及评价信息的分析使用者。1968年，布卢姆（Benjamin Bloom）将形成性评价的概念用于学生学习，认为应在学生学习过程中通过检测诊断学习中的问题。形成性评价主要就“什么时候评价”扩展了评价的含义。20世纪80年代后，社会经济发展不断对人才培养工作提出更高要求，同时认知心理学等学科揭示了学生在学习中发挥积极主动性的作用，大量学者开始进一步挖掘评价在学习中所能起的作用。学者主要就“评价的核心功能及其实现途径”、“学生在评价中的角色”扩展评价的含义。评价依然是信息收集及分析反馈工具，但这一工具被认为应该是以改进学习为首要目标。不同学者或研究组织用不同的名称来称呼这种以改进学习为首要目标的评价，如学习导向评价、为了学习的评价等，并且总结了这类评价的特征。英国的评价改革研究小组（Assessment Reform Group，ARG）认为，为了学习的评价应该是：有效的教学设计中的一部分；关注学生如何学习；课堂活动的核心内容；教师需要掌握的关键专业技能；建设性的，因为任何评价都会带来学生情绪、情感的影响；考虑到学生学习动机的重要性；促进对学习目标的理解，在评价标准上应该达成共识；保证学生得到如何取得进步的建设性指导；发展学生自我评价的能力，促进他们进行反思和自我管理；认可学生各个方面的成就[12]。不同学者或研究组织总结的为了学习的评价的特征大同小异，从这些特征中可以明显看出为了学习的学业评价从目的到形式完全不同于考试。

其次要正确认识学业评价中公正的内涵。为了学习的学业评价分配什么？分配的是能改进学生学习的信息以及根据这些信息所确定的合适的教育。联合国教科文组织的著名报告《学会生存――教育世界的今天和明天》在谈及教育中的机会平等时指出：“给每个人平等的机会，并不是指名义上的平等，即对每一个人一视同仁，如目前许多人所认为的那样。机会平等是要肯定每一个人都能受到适当的教育，而且这种教育的进度和方法是适合个人的特点的。”[13]应像理解教育中的机会平等一样理解学业评价中的公正，因为它们有着共同的使命――让学生学会生存，获得发展。

澄清学业评价工作的首要目标不仅是评价内涵扩展和丰富的结果，还是使评价活动有效的要求。选拔、甄别、诊断、鉴定、认证、发现、发展、管理等等都是评价可能具备的目标。研究者认为，包括学业评价在内的评价活动之所以很困难就在于评价可以同时具备多种目标[14]，但难以同等良好地实现所有目标，得到最重视的目标决定评价的内在结构与外在形式。这也就是为什么在学业评价的研究文献中总是可以看到学者指出对某些评价功能和目标“过于重视”、“过于关注”、“过于依赖”、“过分强调”，认为对某些评价功能和目标应该“突显”、“强调”。评价工作需要确定首要目标，并从这个首要目标出发设计评价，以确保首要目标的达成而不是其它。

人们依赖考试一方面是对考试的局限性了解不够，另一方面是强调了学业评价在人才培养中不合适的目标――管理。当前我国高校中的学业评价，与其说是一种教育方式，不如说是一种管理方式。在高校管理中，考试是高效且便利的以考促学的工具。高校中的学业考试是高利害的，因为它和毕业及各种荣誉有关，这样的考试自然能促使学生学习。但我们必须追问，有没有导致正确的学习？不管考试在管理上多么高效和便利，它终究是以牺牲学生的利益为代价。正是对于以管理为目标的学业评价的依赖，人们很难看到它和改进学生学习的关系。只有把学生的利益放在第一位，而不是把管理的效率和方便放在第一位，才能正确理解公正评价学生学业的内涵。

为了学习的学业评价在国外高校人才培养工作中正在发挥着重要作用。首先政府部门和相关组织明确将以改进学习为首要目标的评价写进政策文件中。美国高等教育协会（The American Association for Higher Education，AAHE）制定的良好学生学习评价活动的第一条原则是：评价学生的学习必须从教育的价值开始[6]（P171）。QAA明确要求：评估实践应促进有效学习[15]。其次学者积极进行理论研究，并和教师一起进行学业评价改革。如，美国学者安吉洛和克罗斯（Anglo，T.&Cross，P.）等在20世纪80年代组织的课堂研究项目；澳大利亚学者南丁格尔（Nightingale，P.）等在20世纪90年代中期组织的大学教学促进项目（Committee for the Advancement of University Teaching，CAUT）。这些项目均是由评价专家组织及指导教师进行学业评价改革行动研究，在实践中发现问题，解决问题，形成丰富的学业评价资源。如，学业评价方法、学业评价范例供更多教师使用，并致力于在高校形成以改进学习为目标的评价文化。相比之下，我国对高校学业评价的认识及实践还停留在考试阶段，高校中盛行的依然是考试文化而不是评价文化。

四、结语

在各项教育改革中，评价均被视为最难点或瓶颈。评价的首要目标选择不当是评价不能取得预期效果的重要原因之一。长期以来，我国高校学业评价均承担着测量者的角色，人们认为公正评价即公正评分。在这种情况下，需要从政策层面对人们的认识和实践进行正确引导。翻看我国《教育法》，可以发现教育部已核准的章程中，对学生学业评价工作的表述基本上和《教育法》中的表述一致。章程要与教育法保持一致无可厚非，但保持一致并不意味着原封不动，其遣词造句若能有利于纠正对高校学业评价即考试的片面认识，引导高校进行有利于改进学生学习的评价则更有益于高校提高人才培养质量。即使对学生学业评价工作沿用和教育法一致的表述，也需要高校相关群体正确认识与实践公正评价学生学业，让学生真正从学业评价活动中受益。

参考文献

[1] [美]博登海墨.法理学――法哲学及其方法[M].北京：华夏出版社，1987：238.

[2] 崔允t.促进学习：学业评价的新范式[J].教育科学研究，2010（03）：11-15.

[3] 沈晓丽.我国普通高校学生评价实践研究――以E大学为个案[D].华东师范大学硕士学位论文，2008：摘要.

[4] 洋龙.平等与公平、正义、公正之比较 [J].文史哲，2004（04）：145-151.

[5] [美]W.James Popham.促进教学的课堂评价[M].北京：中国轻工业出版社，2003.

[6] [美]Barbara E.Walvoord & Virginia Johnson Anderson.等级评分――学习和评价的有效工具[M].北京：中国轻工业出版社，2004.

[7] [美]哈瑞.刘易斯.失去灵魂的卓越[M].侯定凯，等译.上海：华东师范大学出版社，2012：117.

[8] [美]玛丽埃伦.韦默.以学习者为中心的教学――给教学实践带来的五项关键变化[M].洪岗译.杭州：浙江大学出版社，2006：82.

[9] Nightingale，P.，Te Wiata，I.，Toohey，S.，Ryan，G.，Hughes，C.，and Magin，D.Assessing Learning in Universities.Sydney：University of New South Wales Press，1996.117.

[10] David Carless，Gordon Joughin，Ngar-Fun Liu.How Assessment Supports Learning：Learning-oriented Assessment in Action[M].Hong Kong University Press.2006：2.

[11] 王萍，高凌飚.“教育评价”概念变化溯源[J].华南师范大学学报（社会科学版），2009（04）：39-43.

[12] Assessment Reform Group.Assessment for Learning：10 Principles[R].Cambridge：University of Cambridge，2002.

[13] 联合国教科文组织国际教育发展委员会.学会生存：教育世界的今天和明天[M].北京：教育科学出版社，1996：105.

教育测量与评价论文范文第7篇

(一)更新教学理念，深化教学思想诚信教育是教育统计与测量教学的出发点和落脚点。教育统计与测量课程的思维方式是理性主义关照下的经验主义、演绎主义关照下的归纳主义、“从部分到整体”的思维方式。其基本思想是，按照特有的思维方式，定量地揭示教育领域中“寓于偶然性中的必然性”，为教育工作者提供科学依据和理论指导。

(二)优化课程结构，重组教学模块优化课程结构的关键是要吸取各版本教材的优点，重新建立一个适合学生特点、体现教学特色、注重培养学生素质的课程新体系。总结多年的教学经验，以厚基础、专题化的研究性学习理念为基础，构建了教育统计与测量的课程教学新体系。1．理论教学模块(1)描述统计模块主要包括数据的整理与分析;集中量数、差异量数、相关量数等统计指标的意义、应用;二项分布、正态分布及其应用。(2)推断统计模块主要包括概率及概率分布、抽样分布及总体平均数的推断、平均数差异的显著性检验等。(3)教育测量与评价模块主要包括教育测量产生的历史、类型;教育测量的质量特性:信度、效度、难度、区分度;编制测验的原理;测验题目的类型及编制要求、适用条件;评价学生课业发展进步的主要方法。2．实践教学模块(1)会分析数据统计分析是用数字精确反映事物的一种定量研究。［5］平均是描述统计分析的核心思想。如，(1)有3位报考相同专业的研究生考试成绩，各课程权重系数给予同一规定，试问录取结果如何?(2)有两组个数相同、数字不完全相同的10个分数，试问:两组分数的分布是否一样?为什么?哪个平均数的代表性更好?为什么?由样本推出总体是推断统计分析的核心思想。如，从某年高考作文试卷中随机抽取100份，试估计作文总体平均分数95%和99%置信区间。(2)会假设检验假设检验有两个相互对立的假设:零假设和备择假设。如，零假设H0:某人患癌症，备择假设H1:某人未患癌症。医生给此人做诊断时，尽管遵循小概率事件原理，仍可能犯两类错误:此人未患癌症而被诊断为患癌症(α错误:H1为真却拒绝，弃真);此人患癌症而被诊断为未患癌症(β错误:H0为假却保留，取伪)。如果医生犯α错误，此人是否会抑郁而患癌症?如果医生犯β错误，此人是否会错过治疗而成为不治之症?两类错误危害很大，应该降低犯错的概率，尽量控制。(3)会编制测验教师在日常的教学工作中，一般都会通过试卷来检测学生的学习情况。于是，如何编制一份合格的试卷并进行科学分析，成为教师的必备技能。自编测验必须明确三个问题:测什么，为什么测?怎样测?包括题目双向细目表的制定，题目的类型、数量、记分方法的选择，测验的信度、效度、难度、区分度分析等步骤。［6］3．应用教学模块(1)应用一:用Word、Excel绘制统计图、表。统计图、表能简洁、直观、形象地表达数据。如，某小学四年级学生参加校园绿化植树活动，总计需要植树120棵(其中槐树46棵，柳树24棵，松树50棵)。请绘制圆形统计图。再如，某小学在雷锋活动月中，各年级涌现出的好人好事分别为:一年级男生12件、女生15件;二年级男生16件、女生24件;三年级男生11件、女生13件;四年级男生20件、女生24件;五年级男生18件、女生15件;六年级男生5件、女生10件。根据上述资料，请编制一个适当的统计表，并绘制相应的统计图。(2)应用二:考试、竞赛、选拔等。应试技巧:针对不同的题目类型，采取不同的应对方法。如，(1)一个学生猜做10个是非题，若全凭猜测，平均就可以猜对5道题(np10×0．55)。假如规定做对95%的题目才算掌握了测验的有关知识，那么，学生必须做对多少题才算掌握了这些知识呢?(2)一份试卷有100道四选一的多项选择题(每题1分)，考生答对了其中80道，有20道不能回答，因而对这20道题作猜测，则猜测得分的范围有多大?(3)某项职业录取考试，在参加考试的1600人中准备录取200人，考试分数接近正态分布，平均分数为74，标准差为11，问录取分数线是多少?(3)应用三:对两组或两组以上样本的平均数差异的比较。运用SPSS统计软件进行相关样本平均数差异的显著性检验和单因素完全随机设计方差分析。如，(1)某学校将80名学生按年龄、性别、智力水平、原有知识基础等一一匹配后，分成两个班级进行教材改革实验。甲班学生使用旧教材，乙班学生使用新教材，学习后两班学生测验的结果已知。两班成绩的差异是否显著?(2)某学校为了改进教学方法，从某年级中随机抽取60名学生，分成三组，进行三种教学方法实验。一个月后进行统一测验，测验成绩已知。三种教学方法的教学效果有无显著性差异?(4)应用四:评价学生课业发展进步的方法的运用。评价学生课业发展进步的方法主要有:客观题与主观题评价法、表现性测验评价法、评定量表评价法、同伴评定和轶事记录评价法、档案袋评价法等。考试是一种常用的评价方法，作业批语、课堂提问是一种评价，家访是一种评价，一个微笑、一个眼神都是评价。教师对学生的评价是教师教育教学活动的基本环节，是教师实施教育活动的途径之一。

(三)改革教学方法1．讨论法让学生主动发表自己的看法。如，有人认为:用相对位置或相对分数来描述与评价学生的学习情况不符合素质教育的思想。这样，常模参照测量与评价的方法，在新一轮的基础教育改革中还有存在的价值吗?你怎么看这个问题?启发学生课堂思考，分组讨论。如，某学生一学年内期中考试各科平均分数为95分，期末考试各科平均分数为90分。95分与90分相差5分，存在本质上的差异吗?该学生家长批评了他，你赞同该家长的做法吗?你眼中的素质教育与分数、排名有什么样的关系?2．小组合作学习法组内合作、组间交流汇报:如，计算某班某两门课程分数的平均分、标准差、相关系数，画出成绩分布图并判断是否为正态分布。小组合作学习描述统计:列举经典实例，分组课堂练习，分析比较数据，探讨在教育科研中，标准差S是越大越好还是越小越好?讨论集中量数与差异量数的关系。小组合作学习推断统计:对小组合作调查获得的数据进行分析，探讨性别差异、年级差异等。3．讲授法在科学研究和实际应用中，我们常常要对教学方法、教材选择、心理测验、考试等实验所得的数据进行分析或对实验效果进行比较。我们可以通过对两组随机样本来比较实验前后的效果，比较的目的是看实验前后随机样本是否有所变化。引出差异显著性检验:根据两个样本统计量的差异检验两个相应总体参数差异的显著性。平均数差异显著性检验原理教学的重点是，使学生把基本原理正确地运用到教育领域的实际问题解决之中，培养学生选择知识、应用知识的能力。4．案例教学法近十几年来，西方国家的案例教学法被日益广泛地运用到我国的教育领域。通过案例的桥梁可以实现学习材料与认知结构的连接，促进有意义的学习。如，飞机失事，大家已经众所周知，为什么仍然有很多人乘坐飞机?人们坐飞机出行前，都坚信小概率事件原理，认为飞机失事不可能发生在自己的头上。任何事情都有偶然性。概率就是偶然性当中的必然规律。把测验的信度和效度的关系，比作“人才”德和才的关系，有德有才为一等，有德无才为二等，无德无才为三等，无德有才为四等。信度高是效度高的必要而非充分条件。一位学生在一个学期中，期中考试数学考了95分，期末考试数学考了88分，家长会评价说:“你看不努力，退步了吧!”这样的评价合理吗?案例教学法的关键在于所选案例要具有代表性，能很好地阐释相关理论;要典型，具有说服力;要深入浅出，使学生通俗易懂。5．参与式、探究式教学法如，在教学进程中对学生进行“大学生学习动机”的问卷调查，让学生们参与调查、评分、数据分析的全过程，渗透参与式学习、探究式教学，将教学和教育科学研究紧密结合，培养学生的教育研究能力。6．抛锚式教学法如，二项分布和正态分布的教学，以典型例子呈现正态分布的应用。分析问题时，先抛出问题留给学生思考的空间，让学生感知问题后，再作引导性讲解。紧紧抓住学生，适时引导和修正，使他们逐步理解和概括。总之，以教师为主体，以学生为主导。各种教学方法的综合运用，有利于激发学生的学习动机，增强学生的学习兴趣，让学生进行知识建构，有意义地学习。通过行动与体验，培养学生教育统计与测量能力。

(四)整合教学手段通过PPT、Word形式呈现讲解内容，使学生会读统计图、表;借助Word、Excel制作统计图、表，将概率分布等直观的表达出来，加深学生的理解，减轻教师上课手绘画图的难度。整合后的教学手段=板书+电子教案(PPT、Word)+Excel+统计软件(SPSS)。

(五)构建教学评价根据教学改革评价多元化的理念，既关注结果又重视过程，既体现知识与技能又兼顾情感、态度与价值观，设计考核的内容与权重为:教育统计与测量基本概念、原理30%(如考试)，教育统计与测量软件操作20%(如运用Excel绘制统计图、运用SPSS统计分析数据、检验测验的信效度等)，平时学习态度20%(如出勤、课堂参与)，教育统计与测量实践应用30%(如考试、作业)。总之，考试形式不拘泥于书本知识，更侧重于实践与应用。

(六)践行教学反思1．关注学生，以学生为本在教学中要关注学生，关注学生的接受与理解水平，适时地调整教学进度和难度。教学设计联系学生生活实际，激发学生的兴趣，提高他们的学习动机;教学内容贴近学生，使得他们容易感知、领悟;教学方法关键在于学生的参与与理解，使得学生活学活用。2．案例生活化，注重实践性、应用性“抽样分布”内容抽象、理论性强。教师用生活化、典型的例子讲解，让学生分组讨论学习，实现良好的师生互动，训练学生运用观察、比较、分类等思维方法;教师举出应用性的实例，进行软件操作与演示，拓展学生的学习。如相关量数的教学，重点是每种相关适用条件的判定，而不是公式的推导。3．精选教学内容，开展形成性评价夯实理论教学，践行实践教学，突出应用教学，精选教学内容。开展形成性评价与终结性评价相结合，将学生的学习过程、学习体验和学习效果的评价作为一项教育研究工作，引导学生积极参与教育研究，培养他们的教育科研能力和教育评价能力。

二、教育统计与测量教学改革的展望

(一)建构网络互动平台组建QQ群，使得师生互动和交流有效、及时;逐步实现典型试题库、教育统计与测量相关操作软件的共享，构建网络互动平台。师生互评是在师生平等对话的过程中完成的，评价者和被评价者是一种“双主体”的评价关系。

(二)加大教育统计与测量实践教学环节的改革提高教育统计与测量在教师教育课程中的地位，重组教学模块，突出实践性和应用性。使学生掌握科学研究的方法，提高他们的教育教学实践能力，提升教育统计与测量能力。

教育测量与评价论文范文第8篇

随着计算机技术的蓬勃发展和广泛应用，计算机辅助教学管理也日趋普及。计算机辅助高等教育评估是其中一个比较新的分支，它的出现不仅改善了教育评估方式，而且有力地促进了传统教育评估方法向高效率、高质量和更加准确可靠的方向转变，促进了教育评估系统的改革，推动了教育评估方法的更新。教育评估是高等教育活动中一个非常重要的方面。而建筑工程专业毕业设计(论文)工作则是本科生培养中一个至关重要的环节，做好本科生毕业设计(论文)评估工作，有助于改进建筑工程专业本科生的培养。遗憾的是，多年来对本科生毕业设计(论文)评估工作普遍重视不够，或者虽然重视，却仅仅停留在定性评价的阶段，缺乏准确可靠的评价标准，所有这些都不同程度地影响了本科生毕业设计(论文)工作的质量。在这种情况下，将计算机引人本科生毕业设计(论文）评估活动中来，可以大大改善这种状况。计算机具有存储量大、可连续工作等特点，而且利用计算机处理评估材料，获得评估结果，具有速度快、效率高、结果可靠的特点，只要指标体系建立合理，计算机能不受任何人为因素的干扰，提供给教学管理人员实事求是的结果，成为他们工作中得力的助手。为此，我们开发研制了建筑工程专业毕业设计(论文)计算机辅助评估预测系统（以下简称评估预测系统)。

二、评估预测系统的开发研制

(一）基本原理与方法

如何实现评估过程从定性到定量的转变，是开发研制该系统的关键所在。我们依据高等教育评估的原理，采用模糊综合评价的基本原理和方法，给出了建筑工程专业毕业设计(论文)评估的量化模型，具体步骤如下：

1.建立毕业设计(论文）评估指标体系。一级指标分为教师、学生、选题、客观条件四个方面。各方面再细分则为二级指标，如：教师方面分为准备工作、课堂讲授、出勤率、答疑情况、教学方式、教师职称等六个方面；学生方面分为学习态度、平时成绩、计算书完成情况、图纸完成情况、创新情况、译文完成情况等六个方面；选题方面分为结构类型、课题新颖程度、计算机应用合理程度、题目性质、外文资料、创新性等六个方面；客观条件分为设计教室、绘图仪器及图板、机房及出图设施、每位教师指导学生人数等四个方面。

2. 设立评价等级V，V=1好(VI)，较好(V2)，—般(V3)，较差(V4)|。

3. 构造单因素评判矩阵R，

其中，R中每一个元素rij表示第i个评价因素对第j个评价等级的隶属度。

4. 设立各评价因素权重集A，例：一级指标权重集八=(0_35，0.35，0.15，0_15)，八的取值可根据经验，并依据以往各届毕业设计(论文）评估结果经反复试算确定。

5.计算综合评判矩阵

6.对各级指标体系重复步骤

7.计算测评结果

求得最终评判矩阵B该量化模型针对毕业生总体进行评估，评价毕业生的综合质量，改变了过去仅片面地对个人进行评估的状况。

(二）评估预测系统的计算机开发语言

系统采用流行的Windows人机交互式界面，力争做到界面友好，操作方便。根据本系统的特点和具体要求，我们选用了Windows环境下的VisualBasic5.0可视化编程语言开发本系统。VisualBasic5.0是微软公司开发的功能十分强大而又简单易用的可视化编程环境，编程速度快，界面质量高，是编写Windows应用程序的最佳选择。使用VisualBa¬sic语言开发本系统充分体现了本系统处理数据、信息快捷方便的特点。

(三）评估预测系统的总体结构

在Windows操作系统下安装本系统后，启动系统，进人主菜单，依据界面提示您就可以轻松完成评估工作，系统主框图如下：

三、评估预测系统的优点

1. 量化评估，提前预测，动态管理。该计算机辅助评估预测系统能够对毕业设计(论文)工作方案可能取得的效果进行预测。教学管理人员只要依据该系统的提示输人各项有关毕业设计(论文)工作方案的参数，系统随即能计算出毕业设计(论文)工作的成绩，从而对各项工作方案的结果作出预测。通过反复改变参数——计算成绩，教学管理人员就能够发现各种方案的优缺点，即哪一项安排对毕业设计(论文)工作是有利的，如果实施下去会取得好的工作效果；哪一项安排对毕业设计(论文)工作是不利的，实施下去必将导致毕业设计(论文)工作成绩下滑。这种预测如果安排在毕业设计(论文)工作开始之前，管理者就能有效地对毕业设计(论文)方案进行调整，从而获得满意的效果。我们将99届与往届的工作方案作了一下比较，发现由于老教授退休较多，本次毕业设计年轻教师比例上升，但年轻教师职称偏低，讲师居多，教授、副教授比例严重下降，用该系统初步预测发现毕业设计整体质量将要下滑。根据这个信息，系学术委员会马上采取措施，对年轻教师提出更高要求：指导教师中讲师一级必须具有硕士学历，且应有一定的工程实践经验，在课题选择及指导上必须具有较强的创新性，最后经系学术委员会严格审查后方可上岗。再用本系统预测后发现，毕业设计(论文)工作最终得分并未降低，反而稍有提高。目前，99届毕业设计(论文)工作已经结束，最终得分的确较98届有所提高，与系统预测结果吻合较好。

2. 有效监督，对症下药。毕业设计(论文）工作进行到中期时，系里为了加强对毕业设计(论文）工作的监督管理，一般要求安排一次中期检查。该检查能发现一些问题，但对这些问题造成的结果却很难预知。这样的话，发现缺点往往不能及时纠正，任其发展下去必将导致不良后果。这时，如果用该计算机辅助评估预测系统进行一下“中期评估”，各种问题可能导致的结果将一览无遗，且该系统会帮助教学管理人员清楚地发现各种导致毕业设计(论文）工作成绩偏低的原因，从而有针对性地，高效率地对缺点进行纠正，对优点给予肯定，保证毕业设计(论文)工作顺利进行，最终取得优异成绩。例如，99届某老师所带设计组，由于指导教师出勤率过低，中期检查时系统评估预测该设计小组成绩偏低，系领导马上对指导教师进行了批评教育。由于纠正及时，最终这个小组成绩达到了总体平均成绩。

3.总结校核，公平合理。毕业设计(论文）工作结束后，系里要对指导教师、学生的工作学习成绩进行评定。由于诸多非客观因素的影响，结果往往难以做到公平合理。此时借助该系统对毕业设计(论文)工作的成绩进行校核评估，可使毕业设计(论文)成绩评定1：作更加公平合理。该软件是“诚实的检查官”，只要输入的各项参数正确，系统将实事求是地予以评分，这就摒弃了人为因素的干扰。

教育测量与评价论文

教育测量与评价论文范文第1篇

教育测量与评价论文范文第2篇

教育测量与评价论文范文第3篇

教育测量与评价论文范文第4篇

教育测量与评价论文范文第5篇

教育测量与评价论文范文第6篇

教育测量与评价论文范文第7篇

教育测量与评价论文范文第8篇

常用范文

优秀范文

精品范文