分数膨胀与等级膨胀:评教系统双重失效原因探析膨胀螺栓原理动态图

时间：2020-02-28 07:33:03　来源：雅意学习网本文已影响人

　　摘要：大学生评教的本意是提高教学质量，然而在实际操作中却因其对分数膨胀与等级膨胀的助推作用而饱受质疑与批评。本文认为问题的根源并不在于评教制度本身，而在于对其的误读与粗放使用：误将评教当作目的；忽视绩效政治及对绩效过程的控制，采取秋后算账的方式，用评教的均值给全体教员排名；错把评教当作孤立的事件，没有意识到评教是组织系统中的一个子系统，评教的首要问题是组织系统的原因而非特殊原因。目前这种唯教员是问的模式无异于组织生病，教员吃药。评教真正的作用与意义应是为组织、教员及学生提供不断提升的契机。
　　关键词：分数膨胀；等级膨胀；评教系统
　　
　　伴随着高校扩招的脚步，学生评教逐步应用到几乎所有的高校，大学生评教的结果也被广泛地运用到办学水平评估、专业评估、课程评估、教员工作评估、教员改进教学、教员的奖惩、教员试讲与录用、优秀教学奖评选等活动和程序之中。[1]从理论上讲，学生作为教学活动的主体，是教员教学的直接感受者，学生评教的反馈对促进教员反思和提高教育质量有很大的作用，学生反馈的信息是促进教员改进教学的必要组成部分。[2]但是在实际运用中却很少听到赞扬之声，其弊端倒是频频见诸报端：诸如教员混课时，学生混学分，认真负责的教师得到较低的评价，教学质量滑坡等等。这就促使我们思考，一个立意甚佳的管理方式为何会带来如此的后果？其问题根源到底在哪里？我们应该如何解决？本文以部属重点A高校为例，分析大学生评价在分数膨胀、等级膨胀方面的作用。
　　一、等级膨胀与分数膨胀：一个问题两个方面
　　本着以“学生为本”的指导思想，A高校早在世纪之交就运用期末发放纸质评价表的方式进行学生评教。近年来更是针对前一段工作的问题与不足，在评价标准及方式上进行了较大的改进。为引起广大教员对教学问题的足够重视，A高校采用严厉的惩罚措施，用学生评教的均值给全校教员大排队，排在后30%的教员会“荣登”学校谨慎升职的黑名单，排在后5%的则在升职时被一票否决。教员尤其是尚待升职的教员确实不敢对教学掉以轻心，评教似乎也在一直顺利地运转着，不知不觉中，大家渐渐地感觉到师生关系悄然发生了改变，学生成绩出现膨胀的现象，教员的绩效也有膨胀的趋势。其实，这一切并非偶然。
　　（一）他山之石
　　美国自20世纪80年代推行学生评教以来的最直接的后果就是分数膨胀。[3]在评教的压力下，有终身教职的教授还可以特立独行，无终身教职的年轻教员，不得不在学生面前夹着尾巴做人。例如，在普林斯顿大学，本科生的成绩除了A，就是B，很少得C、D；斯坦福大学只有8%的学生得C、D，无学生获E（不及格）；哈佛大学学生的平均成绩为B+，而25年前的平均成绩为B。哈佛大学本科生院院长布雷曾于2007年8月向800多名教员发出公开信，要他们不要忘记C也是一个分级。他说，全国教育标准都在大滑坡。[4]
　　其实，从上述状况我们同样可以看出分数膨胀的另一面就是等级膨胀。我国高校自实施学生评教以来，类似的批评不绝于耳。
　　（二）评教中学生的行为反应
　　教员的命运一方面取决于自己的能力，另一方面也取决于学生对自己的评价。并不是认真负责的教员就能得到好的评价，学生认为好的教员通常是与学生关系好的，好说话的教师（详见表1）。换言之，只要教员不跟学生过不去，学生也不会跟教员过不去。
　　调查结果显示：49.9%的学生认为：“教员与学生关系好，学生评分就高。”在访谈中学生也承认，如果教员太严格，不通融，不好说话，即使教学不错，学生也会打低分。当然，严格要求学生的教员通常会得到较低的评价早不是什么新鲜的话题，著名经济学家张五常就因以严格著称而得到不及格的评价，在我国这种现象可谓比比皆是。[5]对此持否定态度的学生，则是由于对评教有效性抱怀疑态度，认为学校不会据此对教师采取相应的奖惩。
　　在对学生及教员的访谈中，得到这样的信息：评教中主观化与异化的现象较为普遍，最常见的问题是报复、敷衍及评价错位。报复行为的产生可能由于学生平时受到教员不恰当的批评；或因教员不能周全地照顾每一位学生，或者教员在某些可以宽松的情况下过于苛刻。更为重要的是，由于学校没有搭建适合师生双方沟通的渠道与机制，作为学生，从小到大接受的教育就是服从，所以既没有胆量也没有勇气（担心遭到报复）当面给教员提意见或者建议，导致很多学生对教员上课的方式、方法、内容和习惯等方面的意见和看法憋在胸中，到学期末评教呈报复性爆发的态势。敷衍与评价错位产生的原因是学校没有对学生进行培训，很多学生并不了解评教的目的及其最终运用情况，只是将其当作一种形式，一种学校不得已而为之的“秀”，难免以应付的态度对待评教。加之在现有的评教体系中，学校要测量的与学生所反映的并非同一问题。比如学生给一些不知所云的教员在“培养学生自学能力”方面满分的评价，其意本是表达不满，但是学校却将此信息理解为学生对该教员的认可。再者评价多是主观指标，不可能给教员有针对性的，建设性的反馈意见，导致学生所提建议几乎不可能得到积极的、有针对性的反馈，大大降低其参与的动力。此外，学生只享有评价的权力而无需承担相应的责任，滥用、乱用手中权力的现象在所难免。因此评教并不能担负起区分教员绩效优劣之重任，这势必引起教员的等级膨胀。
　　（三）评教中教员的行为反应
　　从教员方面说，如果严格要求学生或者因为一些自己甚感莫名的原因增加被学生打低分的可能，从而加大自己在激烈的职称竞争中失去升职机会的风险，那么他们会做一个激烈的心理挣扎与利弊权衡，可能在学生评教过程中消极应付或以种种形式抵触学生评教，甚至采取手段以获得高分，干扰学生评教。[6]一般情况下，教员会选择讨好学生。在笔者的问卷与访谈调查中发现①，严格要求学生的教员往往得到较低的评价。74.5%的学生认为“教员会因为学生打分而‘迎合’学生”。笔者就“教员会因为评分而‘迎合’学生”这一问题访谈了部分学生。学生表示：他们有时会感觉到教员在教学过程中放松对学生的要求；在考试时，教员会有意无意地降低考试的难度；减轻作业的压力；或者有意无意将考试内容告诉学生，学生因此而轻松通过考试，教员由此而赢得学生的好感。这中间还有一个劣币驱逐良币的效应，如果大家都迎合学生，一些不这么做的教员就会发现自己的评分越来越低，因此不得不“放下身段”。
　　为了验证学生所反映的情况，笔者以非正式的方式访谈了一些副教授、讲师②，几乎80%的被访者明确地表示学生往往将评教作为要挟教员给其打高分的手段。也有一些被访者以隐晦的方式表达了几乎同样的问题：没有必要跟学生过不去，如果对学生过于严格，自己也不舒服。再说，分数对学生也很重要，他们找工作、出国等样样需要高分。如果我们给自己的学生打低分，会导致他们在与其他倾向于给学生高分的学校的学生竞争中吃亏。
　　笔者将在访谈中一些教员就如何搞好与学生的关系，保护自己，避免上“学校黑名单”的经验归类列举如下：尽量不批评学生；尽量不为难学生，包括少布置难度较高的作业；在学术方面少提过高的要求；多找些比较有意思的段子增加课堂的欢声笑语；面对上课迟到、睡觉及开小差等现象尽量忍住不予批评，如果实在看不下去，就用轻松愉快的方式轻描淡写地提一下；如果实在忍不住得罪了学生，在今后还需要想方设法予以弥补。谁会傻到与自己的前程过不去啊。总之尽量不要节外生枝，以免自找麻烦。不仅如此，为了减少风险，教员还采取尽量少开新课程的方式，上课多风险就增大，多上一门课就多一份打低分的风险。因为他们不知道哪片云彩会下雨，干嘛要甘冒风险？这种评教的结果是，既不鼓励教员认真负责，也不鼓励教员努力工作。
　　（四）双重膨胀
　　笔者随机抽取了某学院给大学生上课较多，教龄在三年以上的14位副教授③，提取他们近四年来的网上评教情况，以平均分数的方式展现出来（见表3）。本文抽取样本的平均分数呈现逐学期上升的趋势，并且就各样本的分布看，没有C类，都集中在A与B类。其他高校也有类似的情况。[7]
　　具体来说，如果有一位教员某门课的学生评价是81分（B等），在全校参评的805门专业必选课中位列781名，在学院参评的62门课中排名60，赫然是最低的3%了。而另一门课学生评价87分（A等），在参评的732门课中排名585，在学院参评的46门课中位列第34名，也属于垫底的20%。
　　该校学生分数膨胀的实际情况比访谈及调研情况好，但是仍然可以说明一些问题。从某文科专业学生所有学科的平均分数看（见表4），A类的几乎没有，这可能与学科特点有关，文科很难得到90分以上的高分，B类的从2005年以来呈逐渐上升的趋势，C类呈逐渐下降趋势，D类则由于近两年港澳和特长生的增多出现小幅度的上升，F类的没有。从总趋势上看，良好的越来越多，中等的越来越少，不及格几乎没有。而五年以前，F类还是占2%-5%左右的。这说明已经出现膨胀的势头。
　　从上述对学生分数膨胀的分析中，同样可以得到这样的结论：伴随着学生的分数膨胀，必然有教员绩效的等级膨胀。
　　分数膨胀和等级膨胀与学生评教有关。但是这一问题并不是评教制度本身造成的，而是由于对之缺乏系统的认识和科学的运用，以至于形成对这一制度简单的、过度依赖，最显著的表现为评教的简单粗放式运用，致使在整个评教过程中鼓励甚至纵容退步学习，鼓励等级膨胀，鼓励分数膨胀，鼓励多一事不如少一事。这不仅背离了学生评教的有效边界与根本目的，引发了绩效评价政治的进一步茁壮成长，而且造成组织归罪于外，不反求诸己的惯性思维。
　　二、双重失效的原因探讨
　　虽然早有研究显现，评教只是促进教学的手段，但是现实中，很少有组织遵守这一规则，大家更愿意将之用作功利的目的；虽然理论上也有成果显示，评教从来都是在一定条件下有效的，但是在实际运用时少有人将限定条件考虑进去。根据管理理论，评教就是绩效评估，绩效评估就会有“绩效政治”。同时，绩效评估是一个系统，而非一个事件，系统的设计与所在组织系统本身都会影响评教结果。
　　（一）混淆了评教的手段与目的
　　评教的目的究竟为何？虽然很多专家从不同的角度进行了论述，但是殊途同归，都认为其本意是提高教学质量的手段，而不是目的。实际上在我国，评教更多时候并不是作为提高教学质量的手段出现的，其往往成为人事决策的依据。
　　美国教育家斯塔弗尔比姆说：“我提出的评价定义是：为决策提供信息的过程。”[8]克龙巴赫（Croabach）认为教育评价“是一个搜集和报告对课程研制有指导意义的信息的过程”。美国评价标准联合委员会发表的评价定义是：“对某些对象的价值和优缺点的系统调查。”以上观点道出了评价的真实含义，用斯塔弗尔比姆的话说就是“评价最重要的意图不是为了证明（prove），而是为了改进（improve）”[9]。其实，即便是营利组织绩效评价的目的亦非单一的，其顺序依次是战略的，管理的及开发的目的。
　　一个比较有意思的现象是，尽管有大量的研究告诉我们学生评教只能作为手段，但是现实中它却总被当成目的。在消费者至上的美国，学生评价已经成为最重要的评价方法，有时还是评价教员教学能力的唯一量度。[10]对大学教员应聘和提升职称所进行的教学工作审查评定必须征集学生的意见。[11]美国存在分数膨胀与等级膨胀的现象便毫不奇怪了。
　　我们在实际操作时过于单纯地看待评教问题，仅仅将其作为一种态度进行调查，没有从根本上认识到评教实质上是学生与教员之间的相互评价，而绩效评估从来都是一个高度情感化的过程[12]，是利益相关者之间的相互博弈。评估中不可避免地存在绩效政治，尤其是当评估与人事决策相关时[13]，考核者往往不愿意对被考核者的绩效做出区分，等级膨胀（包括分数膨胀）便不可避免地产生了。评教的目的不同，其客观性也大受影响，不仅如此，还会对评价者与被评价者均产生消极的影响。即便是在企业内部的上下级之间，下级绩效评价也是不可以运用于人事决策方面的。[14]
　　作为教员绩效的评价者――学生是如何看这个问题呢？调查显示：76.4%的学生认为评教结果应该改进教学，44.9%的学生认为评教结果可作为他们选课的参考。但也有部分学生认为评教结果应作为教员晋升职称、发放奖金、人事决策等的决策条件。作为利害相关者，学生很清楚，如果将之作为人事决策的唯一来源，可能有失公正，引起教员的抵触。评教是提高教学质量的手段，而不是目的。因此在运用评价结果时，学校方面应重在改进学校管理策略，从而帮助教员进一步提高教学水平；教员应重在对照、完善与提高，逐步形成独特的教学风格。
　　评教结果的不恰当使用不仅会对评教主体、客体均造成伤害，而且还会给学校战略目标的顺利实施带来严重的影响。这不仅背离了组织启用评教方法之目的，而且严重影响了人们对学生评教的正确认识。诚如Bloom所说：“评价是一把双刃剑，它或许能增进学生的学习和人格发展，或许会危害学生的学习和人格的发展，它对学生、教员、课堂和学校系统能够产生积极的影响，也能产生消极的影响。”问题的关键在于怎样运用学生评教的结果。不仅如此，评教奖赏那些在制度内做得好的员工，但却不奖赏那些试图提高制度的人。换言之，作为奖惩手段的评教不鼓励教员的创新与改进，并且作为相对绩效评估的评教也有鼓励教员间相互拆台及不合作的可能。
　　（二）忽视学生评教的局限性
　　关于学生评教的有效性方面学界并没有达成共识，即便是持肯定态度的研究也认为其有效性是有边界条件的，即其有效性受学生数量、学生的学习动机（对选修课的评分比必修课的评分高）、学生的期望分数、学习态度、教员的职称、表达能力、授课水平、课程领域等控制变量的影响。
　　学生评教的有效性存在明显的分歧。以格林瓦尔德为代表的观点认为学生评教是无效的。他对1971年至1995年间美国发表的论文进行统计，结果表明，1971-1980年认为学生评教无效和存在偏差的研究多于认为有效的研究；1981-1985年，认为学生评教有效的研究多于认为无效和存在偏差的研究；1986-1995年认为有效和无效或存在偏差的研究各占一半。[15]以马什（Marsh H・W）等人为代表的观点认为，学生评教是有效的，但也是在一些限定条件下的有效。
　　评教有效性的主要影响因素是学生数量。⑤[16]此外，当学生的学科兴趣较浓、期望得到高分、负荷量大、学科难度较高时，教员容易得到较高的评价。[17]卡森认为对评教结果有影响的10个因素为：教员的职称、表达能力；学生的学习动机（对选修课的评分比必修课的评分高）、学生的期望分数；课程水平、课程领域（人文艺术类比社会科学类评价高，而后者又比数学类评价高）、作业难度；评教采取匿名与否、学生评教时教员在场与否及评教目的等。[18]这一结论也为美国教育测量中心（ETS）森特拉博士的研究结果所证实，我国学者宋映泉、田勇强等的实证分析大部分验证了这一研究。[19]
　　其实，学生态度对评教结果的影响也不容忽视。评价是一种认识过程[20]，而人在认识过程中受到人心理活动的各种特点制约，因而造成人在认识事物过程中的误差。这种导致学生评分产生误差的心理活动过程称之为误差心理。[21]如戒备心理、应付心理、模式心理、晕轮心理、颠倒心理、报复心理、预设心理、刻板印象与从众心理等都会影响评教的结果。[22]无疑，这种误差心理会影响评教结果的有效性。因此，学生在评教中所持的态度是评教成败的关键。[23]
　　正如戴明所言：以测量或观察而定义的任何特性、状态或状况，并没有所谓的真值。只要改变测量或者观察的程序，就会产生新的数字。[24]评教在一定边界条件下有效，即评教结果的好坏并非教员完全可操控，而是受很多不可控因素的影响，比如学生方面的因素，评教方式及评教目的等等。从绩效管理理论而言，当绩效结果并非教员可完全操控时，管理者在运用这些结果时需要剔除影响因素对结果的干扰，如若不然，不仅会大大挫伤教员的积极性，而且会导致对教员评价和对学生评价的双重失效。
　　但是，在现实中我们却忽视评教的局限性，在反馈时既不考虑课程特征的不同，也不顾及学生个体特征的差异，更没有照顾到大学的多学科特点，以及学习任务的轻重，只是将学生评教分数简单地进行算术平均，并将平均分数反馈给教员或者教务部门，并以此作为生杀予夺教员职称的杀手锏。
　　（三）忽视评教是一个系统
　　评教并非简单的学生对教员的评价，它涉及到整个评价系统。除了上述学者们关注到的控制变量，评价系统还包括对教员绩效的定义，绩效指标与权重、绩效标准、考核方法、评价者的选择，评价的信度，评价信息的来源，评审系统，反馈系统与申诉系统等方面。作为一个系统，既有各组成部分之间的协调性、一致性的问题，也有该系统与组织整个系统的匹配度问题。
　　从绩效定义看，教员属于德鲁克所说的知识工作者，是“那些掌握和运用符号和概念，利用知识或信息工作的人”[25]。其特点是不可量化、模糊性、专业性、多维性、长期性等。在任何水平上进行公式化（formulation）的、短期的绩效评估和单一信息来源的评估都是不合适的。目前的评教是为了评估而评估，停留在对教员过去的表现考评上，没有关注与组织战略发展相关的胜任力、创新能力。这与组织使命战略背道而驰，错误的导向必然得到错误的结果。
　　从绩效指标看，一是指标不完整，二是指标缺乏区分度，三是指标没有主次之分。指标的不完整是指目前的评价指标集中于教员的教学态度、教学技能等任务绩效方面，这些指标既没有承担传递组织战略与价值观的责任，也很少关注组织公民行为等适合于知识工作者绩效的内容。评教指标多属任务绩效，而任务绩效比较适合于简单劳动，而对于复杂的知识工作，尤其是就大学的使命而言，关系绩效的重要性远远大于任务绩效。[26]指标的区分度是指所有教员共用一种调查表，未能反映各门学科之间的特点，新开设课程与成熟课程的区别，承担一门课程与多门课程的差异，教员的工作性质及不同课程内容的教学特点的迥异。指标的主次问题主要指不同的教员，不同的任务在重要性方面没有区分，没有体现组织对不同考核对象、不同任务重视程度的差异，以及战略重点的变动。
　　从评价标准看，大多数评教指标并不是着眼于关键事件或者行为事例，只是用询问的方式征求学生对教员执行某项任务的感觉，说到底是一种主观态度的调查。由于这些评估缺少客观评价标准，一方面使得评价者在评价时多凭主观感觉，另一方面被考核者也无法得到有针对性的反馈，只能看到分数的高低，不知道自己到底哪里需要改进，哪些方面需要继续保持。因此，对于教员来说，其行为模式很可能还是一如既往；对学生而言，所提出的意见并没有得到积极的回应，大大挫伤其提意见的积极性。
　　考核方法的选择除了需要考虑与评估系统中其他因素的相互影响外，还需要考虑工作性质与高校战略、使命的匹配。鉴于教员之间工作性质的千差万别，以及高校使命与价值观对团结、独立精神之尊崇，而A高校的这种将全校教员大排队的相对绩效评估方式与之是格格不入的。
　　评价者的选择是保证评教有效的非常重要的环节。评价者与被评价者的关系、评教的目的与标准，评价者的能力，评价者的个人特点等都是需要考虑的方面。学生与教员的关系不是消费者与生产者的关系，不适合用相互评估的方式，也不适合将学生的评分作为决定教员前程的唯一信息来源，否则会导致其关系的功利化，致使教员丧失“自由之精神”,“独立之人格”，一方面教员很难避免谄媚讨好，另一方面学生极容易陷入要挟偷懒。
　　作为特殊的评价者，学生的个体、群体特点均会影响评教结果。学生一方面具有自主性、目的性、有序性与沉稳性等优点，另一方面也表现出自制性差、自律性低、随意性大、多变与突发性的特点。[27]具有这些个体特点的大学生最典型的群体特点是从众、盲目、讲义气和感情用事，尤其是经历备受控制的高中生活，到达目的地的之后大学生行为与思想有报复性反弹的趋势，他们既需要教员的严格要求与积极引导，又可能因为教员的严格要求而受到挫伤，或者因为教员得罪了某个非正式组织的“头目”而遭到小群体的报复。在评教之前应该引导并培训他们，否则评教失效在所难免。
　　从评价者的能力看，作为考核者的学生必须做到以下两点：一是了解教员所从事工作的目的与目标，以便识别完成工作所必需的关键行为；二是有能力判断所观察到的行为是否令人满意，以便对教员在组织内的价值给出正确的评价。鉴于大学生的特点以及人性的弱点，没有经过培训的大学生很难正确地掌握学校的战略意图，加之评教系统中完全没有体现责权相当这一最古老的组织原理。因此，学生评教更多时候是学生从自身利益出发与教员间展开的利益博弈，而不是从组织战略目标角度展开的绩效评价。
　　从评教的信度看，基于评估者个体特征（即成绩的好坏，动机的强弱及期望的高低）对评教的影响，评教结果不能只看平均分数，而要关注评价者的内部信度。因为没有信度的评教不仅不能准确地诊断问题，也无法有的放矢地反馈问题，所以也无从因人而异地采用措施，其结果是教员不知道其绩效的改进点，学生看不到其建议被采纳。
　　从绩效信息来源看，教员的绩效特点决定了绩效信息来源应该是多方位的，而不能采用单一信息来源。因此，给予评估者恰当的权重是绩效体系成功与否的关键。学生作为利益相关者，在评教中所占的权重过大，甚至百分之百，不仅导致信息失真，而且致使教员不敢严格要求学生，而是一味讨好学生。这样既不利于学生的培养，又不利于教师自身的发展。
　　评审系统，反馈系统与申诉系统设置的目的是减少或者防止绩效评估系统出现偏差。评教系统如果具有这些方面，上述绩效问题，如指标与标准，评价者的信度，绩效信息来源等就会迎刃而解。因为，评审系统是通过绩效委员会及员工参与的形式审议绩效评估系统存在的问题；反馈系统在反馈之前需要对影响评教的各类因素做客观的评估，由管理者与被评估者通过面对面畅谈达成共识，管理者与被评估者就绩效改进计划形成一致的意见，并为组织培训提供参考；而申诉系统是保证评估正确，改正评估问题的最后一道防火墙。如此评教系统才可能达到可信性、有效性、减少偏差和实用性等四个方面的要求。
　　评教是一个系统，而不是一个孤立的事件。学生对课堂教学的评价并不是仅仅对某一事件的单纯反应，它不可避免地受评教系统框架因素的影响，设计不良的评教系统的任何方面均会影响其结果的正确性。可以想见，一个残缺不全的评教体系，一个内部存在着不一致性的评估系统，一个没有考虑到组织战略与系统协调匹配的体系，所有这些方面的问题最终都反映到评教结果上。如果不认真对待评教，建立及维护完善的评教系统，只是一味从教员身上寻找问题的原因，无异于缘木求鱼，不利于组织反思自身问题，不发生分数膨胀与等级膨胀才会令人百思不解。
　　其实，即便是设计精良的评估系统也难以避免系统本身及组织系统因素对其的影响。本文在下一点将详论之。
　　（四）忽略了评教是组织系统中的子系统
　　系统的观点认为，结构模式影响行为。当置身于一个系统中时，人们无论有多大的差别，都倾向于产生相似的行为结果。为了理解重要的问题，我们不能只看到个人失误或者运气不佳，也不能只看到人物和事件，我们必须看到隐藏在事物表面以下的结构模式。[28]评教本身是一个系统，这一系统对结果的影响主要表现在绩效指标的“因用而废”，评估系统的反作用力，以及组织系统因素对教员行为的影响。
　　由于缺乏系统的观念，我们对美国的经验简单地拿来是懒政的表现。美国的教育体系与我国不同，虽然存在分数膨胀，但是不至于危及教育的根本。因为美国高校分数膨胀与宽进严出是相辅相成的，高淘汰率的压力是保证学生认真学习的关键，是其大胆将评教结果运用到人事目的的底气。同时，美国高校的行政与教员之间是服务关系，而非管理关系，比较尊重与在乎教员的意见与建议，有问题也比较容易得到解决。我国既没有严格的学生淘汰制，也没有评教的评审制度与良好的反馈制度，加上教学与行政人员之间的隔膜，这些都不利于系统的整体改进，不利于发现与解决评教双重失效的问题。其实，美国式的管理并非总是好的，也并不总是适合我国。诚如质量管理大师戴明所说：美国什么东西都可以输出，但是就是不能输出管理，但不幸的是，美国管理已经蔓延至全世界。[29]
　　评估中的“因用而废”现象会导致评教的失效。这一现象与绩效测量标准的自身变化特点有关，即随着时间的流逝，绩效测量标准会由于进步学习、退步学习、选择、抑制及社会共识等原因逐步失效。[30]所谓进步学习是指人们在绩效相互观察和趋同的过程中发生的学习，使得绩效标准在执行过程中其变异减弱。退步学习意味着学习了错误的教训，从表面看绩效改善了，实际上真实的绩效并没有改变，甚至更糟。选择的意思是组织在绩效考核时会留下绩效出色的，淘汰差的，以至于绩效标准失去了原先的甄别能力。抑制是指绩效的差异往往受到抑制，尤其当绩效差异持续存在时，即便个体绩效存在显著差异的情况下，绩效评分会悄悄滑向高分一端，这也使得绩效指标的变异性减弱。社会共识指的是群体对某种标准或者事物看法的一致与否影响到评估者对其绩效的判定。
　　评教系统是一个控制系统，而控制的特点是，哪里有控制哪里就有反抗。绩效评估是人力资源管理控制系统中的一环。[31]当控制系统对人的行为进行控制时，并不能像控制任务和机器那样达到期望的结果。因为组织并不是一架精密的机器，而是由人组成的，人会对控制尤其是严密的控制产生反抗或者抵制。组织的管理者发现，作为被考核者都会想方设法影响考核结果。[32]因此，通过严密的管理控制系统以提升组织绩效的方法已经遭到越来越多的抵制与反抗，具体表现为机械的官僚行为、策略性的行为和抵制行为。[33]作为组织，在设计评估系统时就需要综合考虑到系统的反作用力对之的影响，采取相应的措施及时了解组织成员对组织制度与系统的意见与感受，以抵消或者减弱反控制的力量，营造和谐的组织氛围。
　　没有认识到评教系统与其他评估系统的关系及影响。教员的绩效由三个方面构成：教学、科研、项目。虽然教学排在第一位，但实际上真正对教员职称起决定作用的是后两者。而职称对教员来说，既重要又紧急，它决定了稀缺的时间与精力绝大部分分配在科研与项目上，而非教学上。从人力资本属性上看，科研与项目属于流动性资本，可以随着教员的流动而转移，教学更多具有专用人力资本的特点，很难随工作地点的变动而转移。聘任制下的教员失去安全感，具有增加流动资本，减少或者抵制专用资本对自己时间与精力的侵占的倾向。因此，注重评教系统与组织其他系统之间的联系而非简单地将评教作为杀手锏，更有利于问题的解决。
　　研究发现组织内成员对组织的满意感从来是一个综合的对组织整体状况的感受。其受组织情景因素的影响最大（占40%到60%），评价者个人特征因素次之（占10%到30%），两者的相互作用最小（10%到20%）。[34]与个人特征因素相比，组织情景因素是更为重要的影响因素。这种态度固然受被评价者（即教员）的影响，但是更受其对组织的整体态度，及自身因素的影响。正如戴明所说，员工方面的问题94%是组织的问题。[35]
　　以事件解决事件，头痛医头脚痛医脚，而不去思考事件背后深层次的原因是评教问题产生的领导方面的问题。组织因为要以学生为本，便简单地采取控制教员的做法，不考虑这一手段的前因变量，控制变量，系统的设计，以及该系统与其他系统的制衡与平衡，更没有考虑到在以学生为本的同时另一个不可忽视的因素是以教员为本。正如企业界所流行的，没有满意的员工，就没有满意的顾客。那么，没有满意的教员何来满意的学生？
　　评教结果不仅应该剔除我们前所述的控制变量或者调节与中介变量，还应该考虑到评估系统设计的因素，组织系统的政治因素，系统自身变化的特点，以及反控制因素等组织情景因素对之的影响。评教结果一方面作为诊断评价双方问题的依据，另一方面应该主要作为学校反思自身存在问题的契机，而不应单纯将之作为奖惩教员的依据。即便是公开评教结果，加大对教员的奖惩力度，其能够对组织绩效提升的影响也非常有限。因为教员作为整个系统中的一份子，其所能够左右的东西有限，组织层面的问题与学生层面的问题不能依靠教员的一己之力予以改变。所以组织需要反思与修正评价系统的问题，完善组织方面的不足。
　　总之，评教系统双重失效的原因或许是多样的，但是评教目的与手段的混淆是最主要最直接的原因。其次是将评教简单化，忽视其有效边界，没有意识到评教是一个系统，评教系统的设计与系统因素之间协调一致对评教的影响。更为重要的是，忽略作为组织系统的一个子系统，评教不可能不受组织系统因素的影响。因此，本文认为，评教应该是组织、教师和学生共同改进的契机。
　　三、建议
　　（一）明确评教的目的与有效边界
　　鉴于将评教结果运用人事目的所带来的评价失真的问题，首先管理者应该明确自己的责任不是监督而是领导，应致力于提高教员的质量理念。高校需要回归学生评教的目的性：即重在反馈而不是奖惩，重在提高教员的教学水平，而不是为了秋后算账。同时，以人事决策为目的的调查不可简单地使用平均数，可考虑使用中位数，必须排除评价者的个体特征因素及课程特征因素对之的影响；采用多信息来源的评价方式，比如督导评教，同事评价，考核委员会等多种形式，将学生评教作为参考之一，而不是唯一来源。这样不仅可以得到全面真实的信息，而且有助于提高教员维护教学质量的积极性与热情。
　　评教结果受很多控制变量的影响，其中有很多属于教员不可控因素，因此不可只是将其简单公布了事。评教系统中应预先设置控制这些变量的程序，在正式反馈前认真分析控制变量，属于组织层面的问题反馈给领导及相关职能部门，属于学生方面的问题，需要组织通过相应的制度与措施加以解决，这样才能给教员客观公正的反馈。准确的反馈意见既有利于促进教员有针对性的改进自身问题，而且教员可以做出符合学生及组织预期的改进，从而调动学生建言献策的积极性。
　　（二）完善组织的绩效评估系统
　　评价失效很大程度上是由评教系统的设计问题引起的。因此，通过评教和奖惩教员不仅不能改变组织的问题，也无法提高组织绩效。这要求组织首先加强过程控制，尤其需要做好前馈控制，建立集体备课制，确保投入正确的“质量要素”，而不是只做事后诸葛亮；其次根据学生与教员关系的微妙性，建立第三方的信息反馈渠道，将学生对教员及课程的意见及时反馈给教员，以便将不良的绩效控制在过程之中。针对评教系统中存在的教员绩效定义、绩效指标与标准的问题，应该建立与组织战略目标一致的教员绩效定义，将组织战略目标层层分解到评教指标中。评价指标能够真实地反映学校的战略目标，担负传递组织价值观的任务。从关注任务绩效转变到重点关心教员的关系绩效，以减少评价内容狭隘性和误导性，并尽量用行为化或者是描述性的评价标准，减少评价标准的主观色彩，增加评教的客观性及反馈的准确性与针对性。与高校的使命与价值观对应，确立纵向的绩效评估制度，即注重教员未来绩效提高方面，而不是仅仅纠缠于其过去的以及与其他教员相比之下的绩效。针对大学生及其评教的特点，学校必须定期开展学生评教培训工作，通过各种途径让学生学习有关评教知识，掌握评教技能与素质，使其了解、熟悉评教的方式方法及在评价中应该注意的一些问题，从而自觉运用评教理论指导评教实践，增加评教的信度。针对评估系统在评审反馈申诉方面的欠缺，成立教员绩效评估委员会，由管理者、专家、教员及学生代表共同组成，以保证评教体系的科学性和有效性；在发放评教结果的同时也发放教员反馈意见表，用以收集教员对评教结果的意见或建议，以不断改进评教系统。建立基于反馈系统的教员绩效改进与培训计划，解决现在只评教，而无教员改进计划和系统培训计划的弊端。
　　（三）评教结果为组织改进提供反馈信息
　　绩效评价系统的建立并不意味着可以一劳永逸，需要动态调整，以适应绩效测量工具逐渐失去变异性的特点。把评教结果仅仅作为反馈的手段，加强对评价者的培训等措施有助于减少和削弱评教的政治色彩及反控制效应。此外，利用竞争优势效应与合作优势效应也是很好的解决方法，比如基础课或者专业课用导师组的方式上课，既有利于教员间的相互学习，也有利于其相互比较与提升。组织需要综合协调各评估系统的权重分布，以便合理地引导教员的绩效与行为，减弱评教系统与其他评估系统的矛盾。组织需要用系统的观念，加强师生员工之间的沟通，建立组织信任、尊重的良好氛围，减少师生之间以及组织员工之间的对立与隔膜，注重与培养员工的关系绩效[36]，以提升教员的利他行为、利组织行为及利工作或任务行为，从而减少和削弱员工对管理控制系统的抵制与反抗。与此同时，加强成员的满意感调查，了解组织问题之所在，也体现出尊重、信任和体贴组织成员的文化，化解由控制系统带来不满与反抗。这些策略只有在组织层面才有改变的能力与改变的可能。因此，评教结果不应仅是给教员提供反馈，更是学校反思自身存在问题的契机。
　　（四）显而易见的解决方法往往无效
　　领导的目的不只是找出人们过去的失败，而且还要消除失败的原因，让员工花更少的时间就可以把工作做得更好。把变异、麻烦、失误、犯错、低产量及大多数意外的“共同原因”去除，是管理阶层的首要责任，但是“共同原因”还会接二连三地不断出现。其次，必须改进整个系统，使每个人能持续把工作做得更好、更满意。再次，处于系统内的绩效表现愈来愈稳定，让人与人之间的明显差异不断消除。而这些都需假以时日，绝非可以一蹴而就。
　　对付分数膨胀与等级膨胀最简单的方法是规定学生的分数和教员的绩效等级呈正态分布，这种方法当然有效，但这只是治标之术，不能达到治本之目的。同时，也与高分数的假性缺乏的原则相悖。[37]戴明所说的高分数的假性缺乏是指由评分与排名导致的现象，他认为好的学生和好的员工并不缺乏，为什么不能全班都得最高分，没有人垫底。当然，由于系统问题而产生的分数膨胀和等级膨胀与高分数的假性缺乏表面相同，但是有本质上的差异。
　　总之，以上建议是相辅相成的，明确评教的本性是解决分数膨胀及等级膨胀的关键；同时，重视评教的控制变量是解决评教问题的第一步；完善评教系统，有助于解决只是从教师身上寻找问题根源的思维定势与路径依赖。当然，最终需要组织整个系统的力量才能从根本上解决问题。
　　（感谢陈春声教授在论文写作过程中的宝贵意见！）
　　
　　注释：
　　?�?�本问卷的调查对象为部属A高校的全日制本科生，共计发放问卷400份，回收368份，有效问卷365份。男女生与文理科人数大致平衡。没有在教员中大规模发放问卷，只是做了一些访谈。该研究数据主要从学生角度进行的。在这里要特别感谢李泽华同学在问卷发放过程中所付出的辛勤劳动！
　　?�?�本文认为，在评教结果作为人事决策的政策下，评教压力主要是针对教授以下的教员，因为这类教员的评教分数决定了他们在职称评审中会不会因此被否决，因此不能做到无欲则刚。所以，他们的反应比较能够说明问题。因此，有些副教授升到教授之后的第一个反应往往是自己可以特立独行了。当然，有些失去升职的希望与可能的教员也有可能做到比较超脱，本文选择访谈对象时也排除了这些人。
　　?�?�新教员不适宜参加评估，组织应该给新教员三年的适应期。
　　?�?�某学院随机抽取的14个较多给大学生上课的副教授及少数讲师网上评教的平均得分情况。
　　?�?�学生评估的数量在２０或20以上时，学生评估的可靠性就能通过最好的客观测验。而对班级规模在50-100人之间，分数则较低；人数在30人以下，与超过100人的班级教员易得高分。
　　
　　参考文献：
　　[1]陈国海.我国高校“学生评教”研究综述[J].高等教育研究学报，2001(1)：30-32.
　　[2]Oliver,R.L.,Sautter,E.P.,“Using Course Management Systems to Enhance the Value of Student Evaluations of Teaching”[J].Journal of Education for Business,80(4):231-234.2005,
　　[3][30]马歇尔・W・迈耶（Marshall W. Meyer）著.绩效测量反思：超越平衡计分卡[M].姜文波译.北京：机械工业出版社，2005. 43-60.
　　[4]佚名.美国高等教育面临新挑战[EB/OL].福建青少年研究，2008(11).http://www.省略.cn/Html/11th/20080830150540745.htm，2009-11-15.
　　[5][7]中国网.高校推学生为教师打分引乱象：建议评教结果公开[EB/OL].http://www.省略/news/edu/2010-02/04/content_19365568.htm，2010-02-04. 吴祚来.师生共同“混课堂”不可小觑[EB/OL]. http://news.省略/opinion/society/detail_2010_11/07/3026420_0.shtml，2010-11-07.
　　[6]邓菊香.消除教员抵触学生评教心理的对策[J].当代教育科学，2004(1)：57-58.
　　[8]瞿宝奎主编.教育学文集・教育评价[M].北京：人民教育出版社，1989. 301.
　　[9]陈玉琨.教育评价学[M].北京：人民教育出版社，1998.15-17.
　　[10]Wilson,R..New Research Casts Doubt on Value of Student Evaluations of Professors [M].The Chronicle of Higher Education.1998.
　　[11]陈晓端.美国大学学生评价教学的理论与实践[J].比较教育研究，2001( 2 )：29-32.
　　[12]理查德・帕斯卡尔，安东尼・阿索斯著.日本企业管理艺术[M].陈今森等译.无正式出版，1983.94；詹姆斯・N・巴伦等著.战略人力资源――总经理的思考框架[M].王垒等译.北京：清华大学出版社，2005.176-177.
　　[13]邓菊香.高校学生评教有效性研究[D].湖南师范大学硕士学位论文.2004. 10.
　　[14]London,M.,Wohlers,A.J.Agreement Between
　　 Subordinate and self-Rating in Upward Feedback[J].Personnel Psychology ,44(2):375-390.1991.
　　[15]Gireenwald,A.G.Validity Concerns and Usefulness of Student Ratings of Instruction [J],American Psychologist, 52(11):1182-1186.1997.
　　[16]Feldman,K.A.Consistency and Variable among college students in rating their teachers and courses[J].Research in Hither Education, 6:223-274.1977.
　　[17]中央教育科学研究所比较教育研究室编译.简明国际教育百科全书・教学(上)[M].北京：教育与科学出版社，1990.185-192.
　　[18]Common Questions on dent Evaluation of Teaching Forms[EB/OL].http://iediis4.ied.edu.hk/celts，2004,4:12
　　[19]宋映泉，田勇强.评价课程还是评价教师？――关于影响学评教结果若干因素的实证研究[J].中国高等教育评估，2000(3)：37-41.
　　[20]冯平:评价论[M].北京：东方出版社，1995.29.
　　[21]王景英.教育评价理论与实践[M].长春:东北师大出版，2001.149.
　　[22][35][37]王新凤，杜丽娟.学生评教中评估偏差的心理分析[J].高教评估，1994(1)：98-100.
　　[23]蔡敏，张丽.大学生参与教师教学评价的调查研究[J].高等教育研究，2005(3)：69-73.
　　[24]戴明著.戴明论质量管理[M].钟汉清译.海口：海南出版社，2003.3.
　　[25]彼得・德鲁克等.知识管理[M].北京：中国人民大学出版社，1999.3.
　　[26]Borman,W.C.,White,L.A.,Dorsey,D.W.“Effects of Rated Task Performance and Interpersonal Factors on Supervisor and Peer Performance Ratings” [J]. Journal of Applied Psychology, 80(1):168-177.,1995,
　　[27]王志强.论大学生行为特点及行为倾向[J].松辽学刊（人文社会科学版），2002(6)：70-71；黄加海.当今大学生心理特征透视[J].湖北商业高等专科学校学报，1999(2)：57-58；周向欣.大学生心理特点的分析[J].牡丹江医学院学报，2000(3)：84.
　　[28]彼得�圣吉著.第五行修炼[M].张成林译.北京：中信出版社，2009.47
　　[29]苏伟伦编.戴明核心管理思想读本[M].北京：中国社会科学出版社，2003.14.
　　[31]黄桂.人力资源管理与管理控制系统关系之研究[J].吉林大学社会科学学报，2006（5）：137-141.
　　[32]爱德华・拉齐尔著.人事管理经济学[M].刘昕等译.北京：生活・读书・新知三联书店，2000.468-470.
　　[33]Lawler,E.E.,Rhode,J.Information and Control in Organizations Pacific Palisades[M],CA: Goodyear.,1976,
　　[34]Arvey,R.D.,Bouchard Jr.,T.J.,Segal,N.,Abraham,L.M.“ Job satisfaction: Environmental and Genetic Components”[J] .Journal of Applied Psychology,74(2):187-192.,1989,
　　[36]Coleman,V.I.,Borman,W.C.“Investigating the Underlying Structure of the Citizenship Performance Domain”[J]. Human Resource Management Review, 10(1):25-44.,2000,
　　

分数膨胀与等级膨胀:评教系统双重失效原因探析膨胀螺栓原理动态图

最新文章

热门文章

分数膨胀与等级膨胀:评教系统双重失效原因探析 膨胀螺栓原理动态图

最新文章

热门文章

分数膨胀与等级膨胀:评教系统双重失效原因探析膨胀螺栓原理动态图