【从巴赫曼的测试有用性原则分析高校英语专业考试】高校英语专业

时间：2019-01-04 03:24:14　来源：雅意学习网本文已影响人

　　摘要: 很多研究者对高校英语专业四级考试都有评价,或单独分析其信度、效度,或着重其后效作用的研究。本文根据Bachman&Palmer(1996)提出的考试有用性原则,从六个方面反思高校英语专业四级考试的有用性,旨在全面分析其质量,提出改革的方向。整体看来,英语专业四级考试设计理念仍以分离式测试为主,显然与当今培养语言运用能力为主的教学理念相偏离,测试的信度虽高,但其真实性、相互作用性较低,对教学的负面后效作用明显,从而减弱了其实用性。
　　关键词: 巴赫曼有用性原则高校英语专业考试
　　
　　一、测试有用性原则
　　Bachman 的交际语言测试模式提出后,在语言测试领域产生了深刻的影响。Skehan称其为语言测试史上的一个里程碑[1]。Bachman 曾指出教育考试的基本用处是提供信息来评价。语言测试是语言教学的必要组成部分,尤其是教学考试,它是用来检验教学大纲的执行情况,评估教学质量,从而给教学双方提供反馈的必要手段[2]。Bachman& Palmer 提出在设计和发展语言测试的时候,最应该考虑的是考试的目的和考试的有用性。虽然研究者们对于语言测试的有用性一直争论不休[3](P16),但是Bachman& Palmer提出了一个评价考试是否有用的原则,这个原则可用来评价一个考试的质量。该原则可以用下列公式表示[3](P18):有用性(Usefulness)= 信度(Reliability) + 构念效度(Construct validity) + 真实性(Authenticity) + 相互作用性(Interactiveness)+ 影响(Impact) + 实用性(Practicality)。
　　与其他学者不同的是,他们的原则强调六个因素之间的互补和平衡。他们认为考试整体的有用性应该得到重视,而不是强调单个因素;可以对某个因素进行单独评价,但必须以它们对考试有用性的整体影响为基础;必须根据具体情形,衡量六个因素的作用和平衡关系。设计任何有用的语言考试,设计者都要考虑清楚该考试的特定目的、特定使用人群及特定的语言使用域。
　　高校英语专业四级考试,全称为全国高校英语专业四级考试(以下简称专四考试),自1991年起由中国大陆教育部实行,考查全国综合性大学英语专业学生的英语水平。自开考以来,据林劲文中的数据显示,参加考试人数从1992年的8554人,上升至2006年的108210人。可见考试的影响力日趋增大[4]。专四考试的设计出发点为成绩测试(performance test),即教学性考试,“考试的目的是全面检查已学完英语专业四级课程的学生是否达到教学大纲所规定的各项要求,考核学生运用各项基本技能的能力以及学生对语法结构和词语用法的掌握程度,既测试学生的综合能力,又测试学生的单项技能。同时,也是评估教学质量,推动校际交流学习的一种手段”(《英语专业考试四级大纲》)。但是专四考试的影响力远不仅如此,一些高校把专四证书与毕业证挂钩,用人单位更是把证书当作了人才选拔的门槛条件。
　　显然,专四考试已超越了教学考试的作用。我们禁不住要问专四考试能否实现它最初的设计目的?其质量该如何评价?鉴于它的大规模使用,我认为对其有用性的探讨非常必要。由此本文根据Bachman & Palmer提出的有用性原则[3],结合设计目的、使用人群,对高校专业四级考试进行分析,以便全面衡量该考试,并对其改革提出建议。
　　二、高校英语专业四级考试评析
　　1.信度及构念效度
　　信度和效度是测试的基本特点,是衡量测试的最重要的指标。信度是实现构念效度的必要条件[3](P23)。信度主要指考试结果的稳定性和可靠性。拿同一份试卷对同一组学生实施两次或多次测试,如果结果很一致,那就说明信度很高。构念效度指的是考试的结果能在多大程度上解释人的语言能力及语言能力有关的心理特征。[1](P209)
　　根据英语专业四级考试大纲,专四考试共有六个部分:写作(25%);听写(15%);听力理解(15%);完形填空(10%);语法及词汇(15%);阅读理解(20%)。该考纲中还提到“为了较好地考核学生运用各项基本技能的能力,既照顾到科学性、客观性,又照顾到可行性以及基础阶段英语水平测试的特点,同时为确保试卷的信度,本考试除写作及听写部分为主观试题外,其余都采用多项选择题形式”。由此可见,专四考卷的60%采用多项选择题的形式。有学者称赞其考试形式的客观性[5];还有人认为多项选择题的广泛使用正是由于它有自身的优势和特点,如为阅卷工作提供方便,提高答题速度、答案唯一,从而使试卷信度很高[6][7]。
　　但正如李绍山所言,所谓“客观”仅指阅卷过程而言,即阅卷时阅卷人员毋需作出主观判断,但是试卷的编制过程本身同样要涉及大量的主观判断,例如考试的具体内容、各类内容的比例等。所以,客观性试题并不能保证有关决策的客观性,统计意义上的可靠性也不能保证决策的可靠性[8]。此外,Hughes也特别提到选择题会容许猜测。从统计原理上说,每个题考生都有25%的猜对的机会[9]。Bachman认为选择题比作答要简单,而后者考核的是考生的语言产出能力[2](P129)。因此,多项选择题不利于测量考生的真正的语言能力。
　　在衡量专四考试构念效度的时候,我们需要看该考试对所考核的能力的定义。英语专业四级考试大纲中在考试目的部分提到:“考核学生运用各项基本技能的能力及学生对语法结构和词语用法的掌握程度,既测试学生的综合能力,又测试学生的单项技能。”高等学校英语专业教学大纲的测试与评估部分也提到:“测试应既有助于提高学生的语言运用能力,又有助于培养学生的思维分析能力。”
　　这两个文件虽然提到了要测的“基本技能”、“综合能力”、“语言运用能力”等概念[10],这些概念又是当今所推广的交际语言测试中的关键词,但这些概念的具体含义是什么?在设计考试的时候如何操作?可操作性有多强?从这两个文件无法得出明确的结论。
　　在专四考试实际的测试试卷中,可以看到词汇与结构,听力、写作等都是分开测试的,这似乎意味着语言可以分成不同的单独的项目进行测试,而这正是如今饱受批评的分离式测试的做法。Bachman&Palmer将语言运用定义为两人或多人之间在特定情境下的相互交流意义的动态过程[3](P61-62)。显然,分离式的语言项目不具有这样的特征,而奇怪的是强调语言使用的口语考试却不是该考试必考的项目。
　　高等学校专业教学大纲中21世纪英语专业人才的培养规格中强调:“能力主要是指获取知识的能力、运用知识的能力、分析问题的能力、独立提出见解的能力和创新的能力。其中创新能力的培养尤为重要。”可见高校英语专业人才培养的教学目标需围绕学生的运用知识的能力,培养他们的实际语言运用能力。那么,当今的专四考试的效度不高是其改革的首个动因。考试设计者需要重视并定义清楚语言运用能力,并在考试中摒弃分离式测试的做法,设计考察语言运用的任务。
　　2.真实性
　　Bachman&Palmer把真实性定义为:“某项考试任务的特征与目标语言使用任务特征的一致程度。”真实性与传统上的内容效度有一定的联系,对考生针对考试的看法和表现都有一定的影响。在设计考试时,我们应首先确定目标语言使用域中的任务特征,然后选择或设计与此任务特征相一致的测试任务[3](P23-24)。
　　据此判断,专四考试中的很多任务真实性较低,因为目标语言使用域中的语言使用任务特征没有得到足够的重视。以被设计者认为是效度较高的项目“听写”为例,“听写文章全篇约150个词,共念四遍。第一遍用正常速度朗读,录音语速为每分钟120词”。听写任务显然与考生目标语言使用域(大学生的现实生活和学习生活中的语言使用)任务相去甚远。首先,考生在生活中听到的英语并不都是标准英语。其次,他们可能在学习过程中需要听讲座记笔记、或在课上与同学用英语进行讨论。换言之,“听”不能与“说”、“读”等技能分开。学生听四遍英语材料,然后再填空的活动在生活中的发生率有多高?我认为这显然不是目标语言使用域中的典型语言使用任务。
　　谈到专四考试中影响真实性的因素,仍然需要提到多项选择题的形式。Weir认为“多项选择题是不真实的任务。现实生活中人们很少面对四个选项,从中选择一个来表达自己的理解”。Hughes也认为选择答案的形式给考生带来“不自然”的负担,因为他们在处理输入信息的时候,还要记住那四、五个选项[9]。
　　3.相互作用性
　　Bachman&Palmer将相互作用性定义为考生特点在完成测试任务中的参与程度和类型。某一测试任务的相互作用性可以体现在考生的语言知识、元认知策略、背景知识和情感图式的参与程度上[3](P25)。
　　根据考纲的描述,专四考试设计者考虑了考生的背景知识因素,在听力理解完型填空、阅读理解中都注意选择了“题材熟悉、难度中等”的材料。但由于这几部分的任务普遍采用了多项选择题的形式,“它所考察的能力仅仅是辨认能力而不是实际使用语言的能力”[8]。显然在完成任务的过程中,考生使用的策略也许更多的是应试技巧,而不是计划、监控语言输出的元认知能力。同样,由于采用了类似的答题方式,曾被认为是测试考生综合运用能力的完型填空也难以摆脱应试技巧的干扰。
　　4.后效作用
　　Bachman&Palmer认为考试的后效作用体现在宏观和微观两个层面上:宏观层面上是指考试对教育制度和社会的响应;微观层面上是指考试对使用考试的个人的影响[3](P31-35)。
　　针对专四考试后效作用的文献很多[11][12]。有人用问卷的方式调查其对教师和学生的影响[12],谈到其正面的影响是学生英语学习自主性加强,教师和学校在英语教学上的投入加大。但负面影响和有关负面影响的文献要多得多。负面影响首先体现在教师和学生忙于应试技巧的训练。教师花费很多时间讲授如何选择正确答案,学生忙于做模拟练习,以致于社会上的应试文献的出版空前繁荣[13]。徐清平、张延续在分析1996、1998、2000年的试卷时发现词汇与结构部分命题内容(考点)的重复。命题内容的重复主要表现为两方面,一是几份测试命题内容的完全重复。二是同一份测试中不同题目的命题内容雷同[14]。先不说这样的题目效度如何,我们在此会明白为什么学生在考试前会深陷题海战术了。
　　对于学生来说,痛苦莫过于专四考试成绩与奖惩联系起来,在有些学校中,学生过不了专四就拿不到毕业证,这给他们造成了很大的心理负担,影响了学习英语的兴趣[15]。专四考试是全国性的高风险考试,现每年数以万计考生参加。考虑到其高比例的分离式测试任务,很难说它不对教育体系和社会构成也构成负面影响。
　　5.实用性
　　考试的实用性与考试实施的方式有关。衡量某考试的现实性需要考虑其设计发展所需的资源,可用资源的分配和管理[3](P35-37)。李绍山认为如果是大规模考试,如我国的专业和非专业英语的全国统测,就要注意其可行性,过多地采用综合性题型或者运用型题型如写作、口头交流等,就会给阅卷工作带来很多问题如人力、物力和财力,也不利于提高考试的信度,因此这类考试宜采用分离式考试[8]。但我不赞同这个说法。
　　虽然理论上分离式测试在施行和评分上较为容易,但现实中却并非如此。在高校有过专业或非专业英语的全国统测监考经历的教师都会有种感觉,监考过程十分繁琐。考前监考过程的演练,监考程序丝毫没有因为其分离式考试而减少。此外,正是因为分离式测试,试卷和答案的安全成为问题。非英语专业的大规模考试考题和答案泄密的事不止一次。专四考试同样会存在类似的威胁。可以看出,在整个试卷的设计、使用前、使用中的监控上、阅卷等环节上,专四这类大规模考试的花费不是一笔小数。那么我们禁不住要问,为什么不设计和实施更直接测试语言使用能力的考试呢?两者的花费真的会相差如此巨大以至于是设计者们望而却步吗?考虑到分离式测试对教学双方的负面影响,对国家人才培养目标实现的阻碍作用,是该改革的时候了。
　　三、结语
　　综上所述,我以Bachman&Palmer提出的衡量测试的有用性原则为依据分析了我国高校英语专业的大规模考试:专业四级考试。虽然有些学者认同该考试任务的客观性及其较高的信度保证,但正如刘润清、韩宝成谈到的,高信度不一定意味着高效度[1]。专四考试的设计理念仍以分离式测试为主,显然与当今培养语言运用能力为主的教学理念相偏离。为教学服务的测试应该激励真实生活中的语言使用。测试的真实性与测试的表面效度和内容效度紧密相关。由于专四考试高比例地使用多项选择题,显然真实性较低。虽然专四考试试图把考生的语言知识、背景知识、认知策略等考虑在内,但不恰当的试题形式使其难以保证较高的相互作用性。此外,专四考试的影响力远远超越了教学考试的范围,给考生造成了不必要的心理负担;其对教学的副作用不容小觑。分离式的测试形式并未使其实施变得简单,反而为保护其试题和答案,会造成一定的经济负担。
　　由此可见,一项大规模考试仅靠信度一项无法得出关于其质量的结论。根据有用性原则的六个方面,我们对专四考试进行全面的分析就会发现,专四考试的确需要改革了。正是因为其影响的巨大,才不能不花费精力和财力对其进行革新,否则其对教学的不恰当的指挥棒作用将继续发挥,继续造成损失。如李绍山所言[8],只有通过使用才能最终学会使用外语,也只有通过使用才能检验学习者的外语水平,仅靠做选择题是决计学不会外语的,仅靠做选择题也是检验不出学习者运用语言的真实能力的。由此可见,专四考试改革也就有了自己的方向。Bachman和Palmer在测试理论与实践一书中也详细地探讨了如何根据实际需要设计合理的考试,给出了一个设计框架。我们期待着我国的大型考试设计者能在科学的测试理论指导下,设计出与我国现行教学理念相一致的、激励真实语言使用的语言测试任务和测试形式。
　　
　　参考文献:
　　[1]刘润清,韩宝成.语言测试和它的方法[M].北京:外语教学与研究出版社,2000.
　　[2]Bachman,L.F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.
　　[3]Bachman,L.F.&Palmer,A.S.Language Testing in Practice[M].Oxford:Oxford University Press,1996.
　　[4]林劲.高校英语专业四级、八级考试的后效研究.硕士论文.杭州:浙江大学,2007.
　　[5]吴古华.浅谈英语专业四级考试.外语界,1994,(3):18-19.
　　[6]侯艳萍.TEM4阅读理解内容效度分析(2000-2002),硕士论文.上海:上海外国语大学,2004.
　　[7]曹扬波.英语测试中的多项选择题刍议[J].陕西师范大学学报(哲学社会科学版),1998,(27)(增刊):301-501.
　　[8]李绍山.分离式考试、综合性考试与语言运用考试[J].解放军外语学院学报,1997,(4):72-77.
　　[9]Hughes,A.Testing for Language Teachers[M].Cambridge:Cambridge University Press,1989.省略nb.省略/jy/system/2008/08/21/005740503.shtml.2009-1-31下载.高校英语专业基础阶段英语考试大纲.省略nb.省略/jy/system/2008/08/21/005740503.shtml.2009-1-31下载.
　　[11]李绍山.语言测试的反拨作用与语言测试设计[J].外语界,2005,(1):71-75.
　　[12]吴锋针.论英语专业四级考试对教学的反拨作用[J].黑龙江高教研究,2008,(8):187-189.
　　[13]陈荷荣.浅析我院英语专业四级考试难点与教学――九八英语专业四级考试分析[J].广州师院学报(社会科学版),1998,20(4):56-59.
　　[14]徐清平,张延续.英语专业四级考试“语法与词汇”内容效度分析[J].外语研究,2004,(2):57-59.

推荐访问:巴赫英语专业有用原则

【从巴赫曼的测试有用性原则分析高校英语专业考试】高校英语专业

最新文章

热门文章

【从巴赫曼的测试有用性原则分析高校英语专业考试】 高校英语专业

最新文章

热门文章

【从巴赫曼的测试有用性原则分析高校英语专业考试】高校英语专业