首页 > 范文大全 > 正文

语言测试综述

开篇:润墨网以专业的文秘视角,为您筛选了一篇语言测试综述范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要: 语言测试作为语言教学的一个重要组成部分。早已引起语言学界的注意,并且越来越受到重视。本文追述了语言测试的历史,评述了语言测试的设计开发原则,并介绍了语言测试研究的新进展,以期开阔我们的视野。

关键词: 语言测试 一致性 有用性

一、语言测试的定义

语言测试是教育测量学的一个分支学科,虽然到了60年代才形成一门新兴的学科,但对语言测试的研究由来已久。语言测试是多种科学的结合体,这多种科学可以概括为两类:语言科学和技术科学。前者给测试馈入内容,后者给测试馈入手段(李筱菊,1997)。语言学、学习心理学和教育测量学构成了语言测试的三大理论支柱。然而,与语言测试关系最为密切的领域当推语言教学。语言测试是伴随着语言教学出现的。语言教学的任务是培养学习者实际运用所学语言的能力,而语言测试的目的则是提供一种科学的测量工具。

二、语言测试的历史发展

语言测试的历史是一部发展史,它的变革无不反映语言学、心理学和科技等领域的新发展。尤其是语言理论,一旦被应用语言学界广泛接受,就会有应用语言学界将其用于新教学大纲的编写,产生新的教学思想、新大纲核心思想及开发出的新的教学方法和教学形式,新的教学效果又通过测试来进行检验,检验的结果为新的教学理论和方法提供反馈,以便修整教学大纲,这是一个循环往复、螺旋向上的过程。

外语测试的形成、发展和完善同语言学、心理学和教学法密切相关。每一时期流行的语言学流派和教学法流派相应地产生了不同的外语测试理论和测试方法。70年代以前,在语言测试界占主导地位的是分析法,这是测试的心理测量――结构主义时期。其语言学的理论基础是结构主义语言学。自70年代中期起,语言测试界开始重视所谓总体综合法的研究,这一时期成为语言测试的心理语言学和社会语言学时期。在社会语言学家提出了语言交际能力的概念后,语言测试进入了强调单一语言能力和提倡综合测试法的社会语言学阶段。自八十年代以来,随着交际教学法的发展,交际法语言测试受到了愈来愈多的重视(Bachman1990)。

三、设计开发语言测试的原则

Bachman针对人们对语言测试的一些错误观点及其结果,结合教学实践中积累的成功经验,提出了语言设计开发过程中始终要遵循的两个原则:(1)必须保持测试中语言的使用和非测试中语言使用的一致,同时必须保持应试者的特征和语言使用者特征的一致,即一致性;(2)试题的适用与否在语言测试的设计与发展中有重要意义,即有用性。

1.一致性原则

Bachman和Palmer(1996)指出设计或开发一项新测试时,应考虑语言测试行为与语言实际使用情况相一致。语言测试的目的是根据被试的测试分数对其语言能力做出判断。此时必须能够证明被试的测试行为与在具体场景下语言使用存在一致关系。要做到这一点,需要设定一套理论框架,使我们能够考虑把被试的测试行为视为语言使用的一个特例。设计这个理论框架需要考虑两方面的因素。首先要考虑的是语言使用任务和情境的特征及测试任务和情境的特征。其目的是为了确保并证明测试任务与语言使用任务相一致。其次还要考虑语言使用者的特征和被试的特征,目的是为了证明这些特征在语言使用任务和测试任务中参与程度有多大。影响语言使用和测试行为的这两组特征是我们开发和设计测试最关心的问题。

2.有用性原则

在设计和开发一项语言测试时,最重要的是考虑这项测试做何用途,因此,测试的重要性质之一是有用性(usefulness)。语言测试的有用性包括六个方面:信度(reliability)+效度(validity)+真实性(authenticity)+交互性(interactiveness)+影响(impact)+可实践性(practicality)。

信度与效度原是计量学中两个重要概念,20世纪30年代被引入语言测试领域。60年代,以Lado等为代表的结构主义测试学家对这两个概念进行了系统的阐述和论证,标志着语言测试已形成科学的体系,成为一门独立的学科。可以说,语言测试理论及实践的发展和纷争都是以信度与效度为主线进行的,信度与效度是语言测试永恒的主题。90年代以来测试学家对于信度与效度的讨论主要集中在四个方面:(1)信度的重要性;(2)在对考生在测试中的表现进行多方面Rasch分析(multifaceted Rasch analysis)时该如何看待评分员之间的信度(interrater reliability);(3)如果把信度看作效度的一部分,在理论上存在的问题;(4)出题者和试题使用者在理解“验证”(validation)这个概念时可能会遇到的困难。

真实性是过去20年来测试界一直关注的问题。1984年的国际语言测试大会对此进行了专门讨论。Spolsky(1985)总结道:“真实性标准给测试领域提出了语用和伦理的问题。测试材料缺乏真实性对我们根据测试成绩做出的推论也提出了疑问。”由于研究方法和角度的不同,人们对真实性尚无一致的看法。总的来说,可分为两种,一种是将真实性定义为与现实生活的相似程度,即Authenticity as“real-life” language use。Bachman和Palmer(1996)认为,真实性指某一语言测试任务特征与实际语言运用任务特征的对应程度,即一致性。一致性越高,测试的真实性就越强(韩宝成,2000)。另一种是将真实性定义为交互真实性,即Authenticity as interactive language use。测试的真实性反映在对被试能力结构的恰当界定及被试与测试任务之间的交互作用上,测试的真实性不再以测试的表面效度为主要衡量标准,测试的构想效度对测试真实性的论证具有同等的、甚至更重要的地位(邹申,2001)。测试真实性标准对于我们开发、评价某项测试是极为有用的,它可以帮助我们在设计时打开思路。

交互性指被试在完成一件测试任务时,涉及到的个人特征类型及程度。简单地说就是在测试所涉及的任务中学生的参与程度。参与程度越高,测试的交互性也就越强。

影响指对社会、教育制度,以及对处于这个制度内的个人的影响。前者为宏观层次的影响,后者为微观层次的影响。结合影响,Bachman引入了“反拨作用(washback)”的概念。它是目前语言测试研究者和操作者最感兴趣的话题之一,特指语言测试,尤其是外语测试对相应的教学和学习产生的影响。人们虽然早已认识到测试的巨大影响,但对这种影响进行大量而深入的研究是近几十年的事(Hughes1989;Alderson &Wall1993;Bachman&Palmer1996)。这些研究主要集中在以下几个方面:反拨作用是否存在;反拨作用是怎样起作用的;影响反拨作用的因素;怎样减少负面反拨作用,提高正面反拨作用,等等。随着研究的深入,人们发现测试的反拨作用比预见的要复杂。其复杂性源于语言测试的复杂性和教学本身的复杂性,以及两者之间的不可分性(Alderson&Wall1993)。测试的巨大影响及反拨作用的复杂性使反拨作用研究变得非常重要。

可实践性,如果说前5项都是围绕分数转的话,这一项主要涉及将测试付之实施的方法,在更大程度上,涉及一项测试能否开发和使用。比如为实施某测试所需财力、物力资源如超过可利用的财力、物力,这个测试就不切实际了,可以说,在设计测试的每一个阶段都要考虑可实践性,它会影响我们的决定,不是做出修改。

在测试学界,传统的看法认为上述这些性质互不相干,或片面地强调其中一个特征。而Bachman的观点是:在把这些性质付诸实施时要考虑三个原则:(1)最强调的应是测试的整体有用性,而不是影响有用性的个别性质;(2)测试的个别性质不能单独评价,必须就它们在测试的整体有用性的共同影响进行评估;(3)测试有用性和不同性质之间的适当平衡不能作一般的规定,而应根据每一个特定的测试情况决定。

四、语言测试研究的新进展

1.基于任务的语言测试(Task-based Language Assessment,简称TBLA)

九十年代以来,随着任务语言教学法的应用,并不断得到发展,随着语言教学的主要目标从具体的语言知识的学习转向系统的交际能力的培养,测试学生使用语言交际的能力日趋重要。TBLA随之成为研究热点(Brindely1994),它是交际性测试的最新发展。2000年在加拿大温哥华召开的第22届国际语言测试研讨会,其中一个主题就是“Putting tasks the test’Language Testing于2002年第4期出专刊讨论TBLA,这足以说明TBLA受到关切的程度。2007年9月21-23日在比利时召开的第一届国际任务教学研讨会中测试学家就从TBLA的角度谈到了任务教学的开展。任何测试程序中涉及观察真实生活中的行为或模仿真实生活的活动,以此进行评价的都可称之为TBLA(Bachman,2002;Norris,Brown)。国外许多现行的考试采用的都是TBLA,比如:IELTS(International English Language Testing System),BEST(Basic English Skills Test),CLBA(Canadian Language Benchmarks Assessment)等。教育部2001年7月制定的《英语课程标准》明确指出:“教师应该避免单纯传授语言知识的教学方法,尽量采用‘任务型’的教学途径”(2001)。“语言课程的改革要通过测试改革来实现”(Alderson 1986)。因此,随着任务语言教学法在我国的英语教学中不断推广,与之相对应的TBLA的发展也不应忽视。

2.计算机适应性语言测试(Computer-adaptive Language Testing,简称CALT)

CALT的理论基础主要是心理学程序教学思想和现代教育测量理论。具体说来,两种理论成为CALT发展的主要依据,即难度可变性测试(Flexi-level Tests)和项目反应理论(Item Response Theory),在进行CALT时,计算机根据这两种理论来生成适合每个考生能力的试题。人们有时称CALT为“量体裁衣”式测试(Tailored Test)。CALT的主要优点有:(1)保证测试有较高的信度和效度;(2)具有良好的反馈作用;(3)测试安全性高;(4)测试的人性化加强;(5)测试的科学化和标准化;(6)开拓新题型;(7)测试开发的规模化。Brown从试卷的设计、评分、后勤(如软件、硬件、设备、漏题等)方面阐述了CALT面临的问题。他把这些问题归纳为:怎样对CALT进行试测?CALT是否应有一个标准长度或以考生的实际情况而异?怎样对CALT项目进行取样?改变CALT项目的难度会产生什么结果?如何对CALT进行评分?如何处理考生漏题的问题?怎样避免漏题?等。Brown认为我们还要针对依据CALT的分数所作的推论的概化性进行研究。随着我国计算机网络的飞速发展,2004年1月颁布实施的《大学英语课程教学要求(试行)》中对课程体系的要求是:“该课程体系不仅包括传统的面授课程以外,更应注重开发基于计算机―网络的大学英语课程……”。同时我国的NMET、CET、PETS等大规模测试的组织和实施费时费力,而且不少测试中存在着信度和效度偏低、起到负面的反拨作用等问题,CALT为我们开辟了一条可行之路。

3.被试特征研究

同外语教学界由研究教学方法转移到研究学习者本身上来一样,被试特征对测试行为的影响也是当前测试界十分关心的问题。被试特征包括文化背景、背景知识、认知能力、性别和年龄等(Bachman,1990)。在英国的UCLES(University of Cambridge Local Examination Syndicate)和美国的ETS(Educational Testing Service)合作,就FCE(First Certification in English)和TOEFL对比研究,其中一个很重要的问题就是研究被试特征对测试行为的影响,它是目前该领域最大的一个研究项目。研究在Milanovic和Bachman的指导下进行,研究范围主要包括两个方面:(1)社会心理因素,包括态度、动机、焦虑感和努力程度四个因素;(2)策略因素,包括认知策略、元认知策略和交际策略。在谈到研究被试特征及测试方法因素对测试行为影响的意义时,Bachman(1990)指出,随着个人特征及测试方法对测试行为影响研究的不断深入,测试开发人员对那些特征因素与方法因素产生交互作用会了解得更透彻,并在实践中能够设法减少这些因素对测试行为带来的影响,为被试最大限度地发挥其测试水平提供机会,这样我们就会更好地、更公正地测量语言能力。

4.电子评分系统(e-rater)

由于行为测试受到重视,语言测试中会出现较多主观题目。主观题的批改既费时又费力,且目标不宜掌握。研究者尝试用计算机来对被试主观题的答题情况进行评分。经过5年的努力,ETS(Educational Testing Service)采用先进的计算语言学技术成功地开发了一套电子作文打分系统(Electronic Essay Rater,简称e-rater)。与人工阅卷相比,其准确率已达87%至94%。e-rater的开发和利用,大大降低了阅卷的成本,将会引起测试评分的改革。e-rater系统的设计原理是,根据评分专家事先评定的评估作文成绩的标准,计算机自动分析被试作文的特征,并与专家设定的特征相对照,然后给出一个等级。该系统实行6分制。如果被试文章内容切题,结构合理,逻辑性强,句式、用词等富有变化,e-rater可给出5-6分。如果被试作文不具备这些特征,得分自然很低。目前,e-rater还不能完全取代人工阅卷,当e-rater和人工阅卷的结果出现较大差异时,ETS再请第三位阅卷人对被试的作文进行评阅,从而也提高了作文阅卷的信度。他们的下一个目标是进一步提高e-rater的准确率,并开发其诊断和解释功能。可以相信,随着e-rater功能的不断完善,总有一天人们会对自己阅卷的思维过程有一个透彻的了解。而且随着语音合成技术的发展,这样的电子口语打分系统也将会实现。

五、结语

作为一门科学化、专业化的学科,语言测试学有着广阔的发展前景。可以相信,随着语言学和语言教学方法的不断发展创新,语言测试学也会不断发展,日臻完善,并最终更为有效地为外语教学服务。

参考文献:

[1]Alderson.C & D.Wall.Does washback exist[J].Applied Linguistics,199314/2:115-129.

[2]Bachman.L.F Fundamental Considerations in Language Testing[M].Oxford:OUP,1990.

[3]Spolsky.B.The limit of authenticity in language testing.Language Testing,1985,2,(1).

[4]韩宝成.语言测试:理论,实践与发展[J].外语教学与研究,2000(1).

[5]李筱菊.语言测试的科学艺术[M].长沙:湖南教育出版社,1997.

[6]邹申.简明英语测试教程[M].北京:高等教育出版社,2000.

本文为2008年度广西工学院教学改革立项项目成果(编号:J0811)