[经典真分数理论与语言测试中的误差控制] 真分数观察分数误差

时间：2019-04-21 03:26:20　来源：雅意学习网本文已影响人

　　摘要：经典测量理论的基础是真分数理论。经典真分数理论认为观察分数(X)是真分数(T)与　　误差分数(E)的和，即：X=T＋E。但只要有测试就会有误差，要保证语言测试的信度，就必须采取措施
　　减少语言测试中的误差。要提高考试的信度，必须在试题编制、考试实施和试卷评阅这三个主要过程中
　　采取措施，控制与测试无关的因素，尽量减少误差造成的影响。信息技术和网络技术的不断发展为语言
　　测试模式的创新和发展提供了手段，也是控制语言测试误差的有效途径。
　　关键词：真分数理论；信度；系统误差；随机误差；计算机化测试
　　中图分类号：H319.3　文献标识码：A　文章编号：1001-5795(2012)03-0046-0005
　　经典测试理论(classical test theory)也被称作经典
　　真实分测量理论(classical true score measurement theo-
　　ry)，由一系列假设构成。根据该理论，应试者所得到
　　的测试分数，即实得分数(observed score)，由真实分数
　　(true score)加误差分数(error score)构成。测试的测
　　量标准误(standard error of measurement)是实得分受
　　误差分影响程度的指数标志。因为测试的目的是要获
　　得可靠的实得分，既最大限度地接近真实的分数，有关
　　测试建构的许多努力都是为了提高测试的信度(王振
　　亚，2008：28)。
　　经过几十年的发展，经典测试理论已经很成熟，在
　　试题的编制、测试的实施以及测试的评价等方面形成
　　了一套非常完整的理论体系。直至今天，这些理论仍
　　然被广泛地应用在语言测试的各个领域(Bachman，
　　1990：97，Henning，1987：146)。
　　1　经典测量理论的真分数模型
　　经过了近一个世纪的发展，经典测试理论建立了
　　一系列项目分析的指标，包括平均分(mean score)、区
　　分度(discrimination)、标准差(standard deviation)、难
　　度(difficulty)、信度(reliability)、效度(validity)和相关
　　(correlation)等(薛荣，2007)。
　　经典测量理论的基础是真分数理论。根据经典真
　　分数理论，真分数是一个反映应试者真实能力的假设
　　分数，即不含测量误差的分数。经典真分数理论中有
　　一个最基本的关系式：观察分数(x)是真分数(T)与
　　误差分数(E)之和，即：X=T＋E(陈社育等，2001)。
　　例如，两名应试者在一次考试中的所得的分数均为
　　75％，测量标准误为3％，那么他们的分数落在72％
　　(减去一个测量标准误)到78％(加上一个测量标准
　　误)之间的概率为68％。在实得分的基础上确定他们
　　的真实分和能力是否相同是不可能的。
　　根据经典真分数模型X=T＋E，真分数T是考生
　　的特征，误差分数E是考试的特征。在应用经典真分
　　数模型时，信度系数会随着样本群体的变化而变化，这
　　是因为真分数T的方差代表考试测量的考生的群体能
　　力的变化(陈社育，2001)。
　　2　语言测试中的误差种类及其来源
　　有测量，就有误差。不知道测量的误差，就无法知
　　道真值的范围。真值就是不存在误差时被测量的事物
　　属性的量值。由于误差无处不在、无时不在，真值是无
　　法知道的。我们只能根据测量的误差估计真值。这个通
　　过估计得出的真值，叫做真值的估计值。我们有时用一
　　个具体的数值表示真值的估计值，有时又用一个范围表
　　示真值的估计值，前者叫做真值的点估计值，后者叫做真
　　值的区间估计值。测量的目标就是对真值做出估计。
　　误差是测量误差的简称。它是测量结果偏离真值
　　大小的量度。误差的真值就是测量的观察值与真值的
　　差，即：误差=测量结果一真值。就像被测量的事物属
　　性的真值无法知道一样，误差的真值也是无法知道的，
　　也只能根据一定的规则来估计。我们平常所说的误
　　差，指的就是误差的估计值(邹申，2005：91)。
　　测量误差可分为系统误差、随机误差和过失误差
　　等。
　　2.1　系统误差
　　系统误差是由测量方法引起的、按确定规律变化
　　的误差。是由与测验目的无关的因子所引起的恒定
　　的、系统的、有规律的变化，存在于每次测量中，故又称
　　常定误差。它直接影响着测量的准确性，与效度有关。
　　系统误差决定了测量结果的准确度。它对于测量结果
　　的影响不可忽视，特别是对于测量结果的标准参照解
　　释(邹申，2005：92)。
　　2.2　随机误差
　　由很多难以辨认、难以控制的因素共同作用引起
　　的误差，叫作随机误差。随机误差的特点是影响因素
　　多且难以辨认，各因素之间的关系错综复杂，难以控
　　制。我们把随机误差的操作化定义和系统误差的操作
　　化定义相加，就得到了如下的结果：系统误差＋随机误
　　差=测量结果一真值。随机误差符合平均数为零的正
　　态分布，因此，正态分布也叫做误差分布。随机误差是
　　测量结果精密度(precision)的量度。如果我们再进一
　　步把这个结果与前面误差的操作化定义比较，就得出
　　如下结论：误差=系统误差＋随机误差。
　　2.3　过失误差
　　由于测量人员的疏忽或者过失而造成的最终测量　　结果的误差，叫做过失误差。这里的测量人员是泛指所
　　有参与测量的人员。就语言测试而言，“测量人员”应该
　　包括考官、监考人员、监考管理人员、考试辅助人员、阅
　　卷人员、分数统计人员等。这里的过失，也是广泛意义
　　上的过失，包括有意过失和无意过失。尽管过失误差很
　　少成为主流误差理论的研究内容，但是过失误差对于测
　　量结果的影响却不能忽视(邹申，1998：254)。
　　2.4　绝对误差和相对误差
　　误差还有一种分类，既绝对误差和相对误差。绝
　　对误差指的是测量观察值对于真值的偏离，其单位和
　　观察值以及真值一样。绝对误差是误差值的实际大
　　小。相对误差指的是测量观察值对于真值的偏离占真
　　值的比例，通常用百分比表示。所以，相对误差是一个
　　没有单位的纯数字。
　　2.5　抽样误差
　　即由抽样变动而造成的误差。例如，以某高校全
　　体大学生为全域，各个系为样组，从每个系各抽取100
　　人进行一次英语测试，那么测验以后，各系的平均数不
　　可能相同，各系平均数与该高校总体平均数也不会相
　　同。这就是说，由于抽样的缘故，样组之间存在差异，
　　样组均数与总体均数也存在差异。所以在研究信度或
　　效度时，可以忽略抽样误差(金瑜，2008：140)。
　　2.6　测量误差
　　是使用测量工具进行心理测量所造成的误差。测
　　量误差由与测验目的无关的偶然因素引起，使得几次
　　测量结果不一致，而且这种不一致是无系统的、随机
　　的。实施测验时，若有被试猜测答案，或被试个人生
　　病、紧张、厌试等，或漏做题目，或测试时场外偶发噪
　　声，这些情况一般会引起被试的临时反应，产生测量误
　　差，使得几次测量结果既不准确又不一致。
　　3　语言测试中的误差控制
　　要使语言测试准确可靠，必须减小测试过程中的
　　误差。从理论上讲，语言测试的成绩只受语言能力的
　　影响。但事实上，语言测试成绩会受到语言能力之外
　　很多因素的影响。语言测试中的常见误差来源主要有
　　三方面：测验本身、施测过程、受测者。这些不同因素
　　与测试分数的关系如下图所示(雷新勇，2006：256)。
　　测验自身的误差主要来源于测验的编制过程，其
　　中项目取样影响最大。测验所要测量的内容是什么，
　　测验的项目能否代表这些内容是至关重要的。当测验
　　的项目较少而取样缺乏代表性时，被试的反应很难代
　　表其真实水平。对于有些类型的项目，例如是非题、选
　　择题，被试可能凭猜测作答，从而降低分数的可靠性。
　　此外，题目用词模棱两可，或对要求叙述不清等，也都
　　会带来误差。
　　在测验的实施过程中可能引起误差的因素很多，
　　如测试环境、时间、主试者、意外干扰、评分记分等。在
　　测量工作中，最复杂的和最难控制的是由被试本身引
　　起的各种误差。这些因素包括应试动机、测验焦虑、测
　　验经验、练习效应、反应倾向、生理变因等情况。
　　能带来误差的因素还有许多，实际上任何与测量
　　目的无关的变因都可能引起误差。测验的标准化就是
　　为了控制这些误差因素，使测验分数更可信、更有效。
　　总的说来，一套考试的信度的高低，受试题的量和质、
　　考试实施、评卷三方面的种种因素所牵制。也就是说，
　　要提高考试的信度，这三个环节都要得到保证(雷新
　　勇，2006：258)。
　　3.1　控制由于试题的编制而产生的误差
　　首先，试题的覆盖面要广，要有足够的题量。就成
　　绩测试(achievement test)而言，在编制试卷的过程中
　　要保证试题的效度和信度，测试的内容要在教学大纲
　　或教材的范围内选取，给学生教什么就考什么，但又不
　　能照搬课后原题，如是这样，就是在考学生的记忆能
　　力，而不是考学生的语言能力，这会影响测试信度。这
　　是就语言测试方法层面而言的。
　　从理论上说，抽样越大，题目数量越多，信度就越
　　高。足够的题量，不但是为了保证抽样足够大，保证覆
　　盖面比较合理，也是为了避免试题偏颇性。如果题目
　　数量少或取样缺乏代表性，就容易使被试的反应受机
　　遇影响。仅凭回答三五个简单的问题，就对应试者的
　　技能或知识水平下结论，显然是不客观，也是不公平的
　　(李筱菊，2001：34-35)。
　　其次，考试结果的分数要具有人分散度(person sep—
　　arability)，即分数分布要散开。这是基于心理计量学的
　　一条基本假定：任何随机抽样的人群，他们能力的分布
　　必然呈正态分布(normal distribution)。正态分布是一个
　　统计学的概念，有精确的数值要求。每次考试结果的分
　　数分布是否正态，要凭公式验算。分数分布正态，说明
　　它反映了人的能力分布实况，说明考试有信度。要达到
　　分数有人分散度，必须做到以下几个方面：①题目的区
　　分度要高；②试题的难度要适中；③不要有偏颇性(bi—
　　as)；④试题要适宜于(fit)受试群；⑤整套试题应该属
　　同一性质(homogeneous)(李筱菊，2001：34-35)。
　　多次反复性考试所用的试题，除了以上保证外，还
　　要求各次之间衡等(equivalent)。这又得靠一系列具
　　体条件来保证：试题结构稳定、题型不变，题目的内容、
　　范围和要求各次之间保持平衡，难易度各次尽量相等，
　　并且还要求采取具体等值(equating)措施。　　3.2　控制语言测试实施过程中产生的误差
　　考试实施的各项条件，对所有受试者应当一致，如
　　答题的时间、听力考试的录音、听音设备、受试者是否
　　允许看笔记、监考和主考是否允许作解释等，都应有具
　　体规定以保证其一致。要保证良好的测试环境，施测
　　现场的温度、光线、背景声音、空间大小甚至通风等诸
　　多情况都会产生测量误差。
　　如果是口语测试，主试的年龄、性别与施测要求不
　　相符合，穿着不得体，施测时的言谈举止不符合施测要
　　求，表情夸张或过分呆板，都会不同程度地影响被试的
　　测试状态乃至测验分数。主试人员过多，给被试造成
　　压力；或者人员不足，无法控制施测。这些情况都会影
　　响被试的测试，产生测量误差。
　　在语言测试中要避免发生意外干扰。测试途中突
　　然停电、突发噪音、有人生病或测验设备临时出问题等
　　不能预见的干扰都会产生测量误差。除此之外，还有
　　一些产生误差的因素，虽然很难控制，但作为语言测
　　试，还是要考虑这些因素的。首先是应试动机的影响，
　　如果被试在两次测试时的动机不一样，其态度、持久
　　性、注意力以及反应速度发生变化，就容易引起测量误
　　差。另外测验的焦虑也会影响考生的成绩。测验的焦
　　虑与被试的能力、抱负水平以及测验经验有关。过度
　　的焦虑对测试有不良影响，从而产生测量误差。
　　多次反复性考试，考试实施的各种条件，不仅同一
　　次考试各个考场之间要求一致，同一项考试的各次之
　　间也要求一致。重复测验中如果有人首次测验后受到
　　特殊训练，也会造成测量误差。另外，被试对测验的程
　　序、内容材料的熟悉程度不同以及回答技巧的差异都
　　会影响测量的一致性(李筱菊，2001：36)。
　　3.3　减少评分过程中产生的误差
　　评分不客观和记分出现错误也是较常见的误差来
　　源。一般来说，客观题的评分较为准确客观，而主观题
　　的评分标准难以掌握，再加上阅卷者的风格、情绪以及
　　其他心理因素的干扰，都会影响分数的一致性。为了有
　　效地控制测验实施中的误差，主试应该严格地遵守标准
　　化的程序去施测和评卷记分，不得随意改动和发挥。
　　评分标准必须一致。要求评分员与评分员之间保
　　持一致(inter-rater consistency)，也要求每个评分员自
　　身保持前后一致(intra-rater consistency)。尤其是测验
　　有多个评分者时，评分者偏好往往各不相同，很容易影
　　响分数的一致性(薛荣，2010：45)。
　　在语言测试中，主观性测试的评分过程是最难控
　　制的，评分会受到各种因素的影响。以写作测试为例，
　　写作分数会受到以下诸因素的影响：
　　在评分过程中我们要努力提高评分者信度(soorer
　　reliability)。由于主观性考试的评阅不可避免地受到
　　评阅人主观因素的影响而导致误差，因此要最大限度
　　地提高评分的准确性和一致性，减少人为主观因素对
　　分数客观性的影响。评分者信度大致可以分为评分者
　　之间信度(inter-scorer reliability)和评分者自身信度
　　(intra-seorer reliability)两种。对于大规模语言测试而
　　言，还会有评分点之间信度(inter-center reliability)的
　　问题，因为大规模测试的评分点不止一个。对于多次
　　反复性考试的评分，不仅要求每个评分员自身保持一
　　致及评分员之间保持一致，还要求各次考试评分之间
　　保持一致(曾用强，2007)。
　　4　计算机化考试是减少语言测试误差的有效
　　途径
　　从命题、施考到试卷的评阅和分数的报道等各个
　　环节，只要有人参与，都会有人为因素，都会产生误差。
　　对大规模考试而言，只有充分利用信息技术和网络计
　　算机考试，才能尽可能地消除人为因素，减少语言测试
　　的误差。随着计算机技术日新月异的进步，计算机的
　　功能有了跨越式的发展。在外语教学上，已远远超出
　　了其辅助的功能。
　　要提高语言测试的效度和信度，就要控制语言测
　　试各个阶段的误差。随着计算机技术和网络技术的不
　　断发展，计算机化测试(computer-based testing)必将成
　　为未来语言测试的主要模式，也是控制语言测试误差
　　的有效途径。关于计算机化语言测试对提高测试效度
　　的作用，金艳(2012)认为，计算机化语言测试可以提
　　高测试任务的真实性，减少与构念无关的因素引起的
　　分数差异，使测试更全面、准确。计算机化语言测试不
　　仅提高了测试的效率，更重要的是提高了测试的效度。
　　曾用强(2012)对计算机化语言测试中的误差控制和
　　考试设计原则做了论述。他认为，在题型设计方面，
　　计算机化测试可以应用创新型题型；在试题组织方面，
　　计算机化测试可以实现适应性测试；在能力估算方面，
　　计算机化测试实现了多维的能力估算；在成绩报告方
　　面，计算机化测试可以向考生提供及时的诊断信息。
　　无论是美国的TOEFL考试还是我国的大学英语
　　四、六级考试和英语专业四、八级考试，都在这方面做
　　出了有益的尝试并且取得了良好的效果。从2001年
　　8月开始，TOEFL在全球范围内结束纸笔测试的历史，
　　全部实行计算机自适应考试。2005年9月，美国教育
　　考试服务中心ETS在全球推出了一种全新的综合英
　　语测试方法，即TOEFL iBT(Internet Based Test)。
　　大学英语四、六级考试在考试内容和考试方式上也
　　进行了相应的改革。其中，考试方法改革的思路是采用
　　信息技术，推进计算机考试。2008年10月，全国大学英
　　语四、六级考试委员会分别在北京、南京、西安和哈尔滨
　　进行了大学英语四、六级计算机网络考试的试点。
　　关于大学英语四、六级考试网考的重要意义，金艳
　　(2009)认为：①网考提高了考试效度。②技术手段
　　的运用使听和说、听和写等能力的考核融为一体，从而
　　更有效地考核学生的英语综合应用能力。③实施网
　　考将改变传统的教和学模式。课堂教学不再采用以书
　　本为中心、以教师面授为主的教学模式。④网考可以
　　大大减少考试对教学的干扰，而且考试时间和次数的
　　灵活性也将缓解考生的压力(金艳，2009)。
　　英语专业四、八级考试在计算机阅卷方面也进行
　　了改革。自2009年5月起，TEM考试的阅卷模式由原
　　先的纸阅模式过渡到计算机辅助阅卷模式。计算机辅
　　助评卷系统是人工评阅经验与计算机技术的完美结
　　合，人机互补，可以在一定程度上弥补人工评阅的不
　　足，提高评卷质量。
　　5　结语
　　语言测试的分数不仅反映了学生的语言能力，还
　　反映了其他一些因素，因此我们必须合理地解释和使
　　用语言测试分数。在语言测试中，我们应该采取一切
　　尽可能的措施来减少各种因素导致的误差，保证测试
　　的信度。但是从理论上讲，任何考试都不可能达到百
　　分之百的信度，也不可能完全消除误差。信息技术的
　　和网络技术的不断发展，对语言测试产生了深刻的影
　　响，也为语言测试模式的创新和发展提供了手段。计
　　算机化测试必将成为未来语言测试的主要模式，也是
　　控制语言测试误差的有效途径。

推荐访问:真分数误差理论语言

[经典真分数理论与语言测试中的误差控制] 真分数观察分数误差

最新文章

热门文章

[经典真分数理论与语言测试中的误差控制] 真分数 观察分数 误差

最新文章

热门文章

[经典真分数理论与语言测试中的误差控制] 真分数观察分数误差