• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 数学学习 > 正文

    [经典真分数理论与语言测试中的误差控制] 真分数 观察分数 误差

    时间:2019-04-21 03:26:20 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘要:经典测量理论的基础是真分数理论。经典真分数理论认为观察分数(X)是真分数(T)与  误差分数(E)的和,即:X=T+E。但只要有测试就会有误差,要保证语言测试的信度,就必须采取措施
      减少语言测试中的误差。要提高考试的信度,必须在试题编制、考试实施和试卷评阅这三个主要过程中
      采取措施,控制与测试无关的因素,尽量减少误差造成的影响。信息技术和网络技术的不断发展为语言
      测试模式的创新和发展提供了手段,也是控制语言测试误差的有效途径。
      关键词:真分数理论;信度;系统误差;随机误差;计算机化测试
      中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2012)03-0046-0005
      经典测试理论(classical test theory)也被称作经典
      真实分测量理论(classical true score measurement theo-
      ry),由一系列假设构成。根据该理论,应试者所得到
      的测试分数,即实得分数(observed score),由真实分数
      (true score)加误差分数(error score)构成。测试的测
      量标准误(standard error of measurement)是实得分受
      误差分影响程度的指数标志。因为测试的目的是要获
      得可靠的实得分,既最大限度地接近真实的分数,有关
      测试建构的许多努力都是为了提高测试的信度(王振
      亚,2008:28)。
      经过几十年的发展,经典测试理论已经很成熟,在
      试题的编制、测试的实施以及测试的评价等方面形成
      了一套非常完整的理论体系。直至今天,这些理论仍
      然被广泛地应用在语言测试的各个领域(Bachman,
      1990:97,Henning,1987:146)。
      1 经典测量理论的真分数模型
      经过了近一个世纪的发展,经典测试理论建立了
      一系列项目分析的指标,包括平均分(mean score)、区
      分度(discrimination)、标准差(standard deviation)、难
      度(difficulty)、信度(reliability)、效度(validity)和相关
      (correlation)等(薛荣,2007)。
      经典测量理论的基础是真分数理论。根据经典真
      分数理论,真分数是一个反映应试者真实能力的假设
      分数,即不含测量误差的分数。经典真分数理论中有
      一个最基本的关系式:观察分数(x)是真分数(T)与
      误差分数(E)之和,即:X=T+E(陈社育等,2001)。
      例如,两名应试者在一次考试中的所得的分数均为
      75%,测量标准误为3%,那么他们的分数落在72%
      (减去一个测量标准误)到78%(加上一个测量标准
      误)之间的概率为68%。在实得分的基础上确定他们
      的真实分和能力是否相同是不可能的。
      根据经典真分数模型X=T+E,真分数T是考生
      的特征,误差分数E是考试的特征。在应用经典真分
      数模型时,信度系数会随着样本群体的变化而变化,这
      是因为真分数T的方差代表考试测量的考生的群体能
      力的变化(陈社育,2001)。
      2 语言测试中的误差种类及其来源
      有测量,就有误差。不知道测量的误差,就无法知
      道真值的范围。真值就是不存在误差时被测量的事物
      属性的量值。由于误差无处不在、无时不在,真值是无
      法知道的。我们只能根据测量的误差估计真值。这个通
      过估计得出的真值,叫做真值的估计值。我们有时用一
      个具体的数值表示真值的估计值,有时又用一个范围表
      示真值的估计值,前者叫做真值的点估计值,后者叫做真
      值的区间估计值。测量的目标就是对真值做出估计。
      误差是测量误差的简称。它是测量结果偏离真值
      大小的量度。误差的真值就是测量的观察值与真值的
      差,即:误差=测量结果一真值。就像被测量的事物属
      性的真值无法知道一样,误差的真值也是无法知道的,
      也只能根据一定的规则来估计。我们平常所说的误
      差,指的就是误差的估计值(邹申,2005:91)。
      测量误差可分为系统误差、随机误差和过失误差
      等。
      2.1 系统误差
      系统误差是由测量方法引起的、按确定规律变化
      的误差。是由与测验目的无关的因子所引起的恒定
      的、系统的、有规律的变化,存在于每次测量中,故又称
      常定误差。它直接影响着测量的准确性,与效度有关。
      系统误差决定了测量结果的准确度。它对于测量结果
      的影响不可忽视,特别是对于测量结果的标准参照解
      释(邹申,2005:92)。
      2.2 随机误差
      由很多难以辨认、难以控制的因素共同作用引起
      的误差,叫作随机误差。随机误差的特点是影响因素
      多且难以辨认,各因素之间的关系错综复杂,难以控
      制。我们把随机误差的操作化定义和系统误差的操作
      化定义相加,就得到了如下的结果:系统误差+随机误
      差=测量结果一真值。随机误差符合平均数为零的正
      态分布,因此,正态分布也叫做误差分布。随机误差是
      测量结果精密度(precision)的量度。如果我们再进一
      步把这个结果与前面误差的操作化定义比较,就得出
      如下结论:误差=系统误差+随机误差。
      2.3 过失误差
      由于测量人员的疏忽或者过失而造成的最终测量   结果的误差,叫做过失误差。这里的测量人员是泛指所
      有参与测量的人员。就语言测试而言,“测量人员”应该
      包括考官、监考人员、监考管理人员、考试辅助人员、阅
      卷人员、分数统计人员等。这里的过失,也是广泛意义
      上的过失,包括有意过失和无意过失。尽管过失误差很
      少成为主流误差理论的研究内容,但是过失误差对于测
      量结果的影响却不能忽视(邹申,1998:254)。
      2.4 绝对误差和相对误差
      误差还有一种分类,既绝对误差和相对误差。绝
      对误差指的是测量观察值对于真值的偏离,其单位和
      观察值以及真值一样。绝对误差是误差值的实际大
      小。相对误差指的是测量观察值对于真值的偏离占真
      值的比例,通常用百分比表示。所以,相对误差是一个
      没有单位的纯数字。
      2.5 抽样误差
      即由抽样变动而造成的误差。例如,以某高校全
      体大学生为全域,各个系为样组,从每个系各抽取100
      人进行一次英语测试,那么测验以后,各系的平均数不
      可能相同,各系平均数与该高校总体平均数也不会相
      同。这就是说,由于抽样的缘故,样组之间存在差异,
      样组均数与总体均数也存在差异。所以在研究信度或
      效度时,可以忽略抽样误差(金瑜,2008:140)。
      2.6 测量误差
      是使用测量工具进行心理测量所造成的误差。测
      量误差由与测验目的无关的偶然因素引起,使得几次
      测量结果不一致,而且这种不一致是无系统的、随机
      的。实施测验时,若有被试猜测答案,或被试个人生
      病、紧张、厌试等,或漏做题目,或测试时场外偶发噪
      声,这些情况一般会引起被试的临时反应,产生测量误
      差,使得几次测量结果既不准确又不一致。
      3 语言测试中的误差控制
      要使语言测试准确可靠,必须减小测试过程中的
      误差。从理论上讲,语言测试的成绩只受语言能力的
      影响。但事实上,语言测试成绩会受到语言能力之外
      很多因素的影响。语言测试中的常见误差来源主要有
      三方面:测验本身、施测过程、受测者。这些不同因素
      与测试分数的关系如下图所示(雷新勇,2006:256)。
      测验自身的误差主要来源于测验的编制过程,其
      中项目取样影响最大。测验所要测量的内容是什么,
      测验的项目能否代表这些内容是至关重要的。当测验
      的项目较少而取样缺乏代表性时,被试的反应很难代
      表其真实水平。对于有些类型的项目,例如是非题、选
      择题,被试可能凭猜测作答,从而降低分数的可靠性。
      此外,题目用词模棱两可,或对要求叙述不清等,也都
      会带来误差。
      在测验的实施过程中可能引起误差的因素很多,
      如测试环境、时间、主试者、意外干扰、评分记分等。在
      测量工作中,最复杂的和最难控制的是由被试本身引
      起的各种误差。这些因素包括应试动机、测验焦虑、测
      验经验、练习效应、反应倾向、生理变因等情况。
      能带来误差的因素还有许多,实际上任何与测量
      目的无关的变因都可能引起误差。测验的标准化就是
      为了控制这些误差因素,使测验分数更可信、更有效。
      总的说来,一套考试的信度的高低,受试题的量和质、
      考试实施、评卷三方面的种种因素所牵制。也就是说,
      要提高考试的信度,这三个环节都要得到保证(雷新
      勇,2006:258)。
      3.1 控制由于试题的编制而产生的误差
      首先,试题的覆盖面要广,要有足够的题量。就成
      绩测试(achievement test)而言,在编制试卷的过程中
      要保证试题的效度和信度,测试的内容要在教学大纲
      或教材的范围内选取,给学生教什么就考什么,但又不
      能照搬课后原题,如是这样,就是在考学生的记忆能
      力,而不是考学生的语言能力,这会影响测试信度。这
      是就语言测试方法层面而言的。
      从理论上说,抽样越大,题目数量越多,信度就越
      高。足够的题量,不但是为了保证抽样足够大,保证覆
      盖面比较合理,也是为了避免试题偏颇性。如果题目
      数量少或取样缺乏代表性,就容易使被试的反应受机
      遇影响。仅凭回答三五个简单的问题,就对应试者的
      技能或知识水平下结论,显然是不客观,也是不公平的
      (李筱菊,2001:34-35)。
      其次,考试结果的分数要具有人分散度(person sep—
      arability),即分数分布要散开。这是基于心理计量学的
      一条基本假定:任何随机抽样的人群,他们能力的分布
      必然呈正态分布(normal distribution)。正态分布是一个
      统计学的概念,有精确的数值要求。每次考试结果的分
      数分布是否正态,要凭公式验算。分数分布正态,说明
      它反映了人的能力分布实况,说明考试有信度。要达到
      分数有人分散度,必须做到以下几个方面:①题目的区
      分度要高;②试题的难度要适中;③不要有偏颇性(bi—
      as);④试题要适宜于(fit)受试群;⑤整套试题应该属
      同一性质(homogeneous)(李筱菊,2001:34-35)。
      多次反复性考试所用的试题,除了以上保证外,还
      要求各次之间衡等(equivalent)。这又得靠一系列具
      体条件来保证:试题结构稳定、题型不变,题目的内容、
      范围和要求各次之间保持平衡,难易度各次尽量相等,
      并且还要求采取具体等值(equating)措施。   3.2 控制语言测试实施过程中产生的误差
      考试实施的各项条件,对所有受试者应当一致,如
      答题的时间、听力考试的录音、听音设备、受试者是否
      允许看笔记、监考和主考是否允许作解释等,都应有具
      体规定以保证其一致。要保证良好的测试环境,施测
      现场的温度、光线、背景声音、空间大小甚至通风等诸
      多情况都会产生测量误差。
      如果是口语测试,主试的年龄、性别与施测要求不
      相符合,穿着不得体,施测时的言谈举止不符合施测要
      求,表情夸张或过分呆板,都会不同程度地影响被试的
      测试状态乃至测验分数。主试人员过多,给被试造成
      压力;或者人员不足,无法控制施测。这些情况都会影
      响被试的测试,产生测量误差。
      在语言测试中要避免发生意外干扰。测试途中突
      然停电、突发噪音、有人生病或测验设备临时出问题等
      不能预见的干扰都会产生测量误差。除此之外,还有
      一些产生误差的因素,虽然很难控制,但作为语言测
      试,还是要考虑这些因素的。首先是应试动机的影响,
      如果被试在两次测试时的动机不一样,其态度、持久
      性、注意力以及反应速度发生变化,就容易引起测量误
      差。另外测验的焦虑也会影响考生的成绩。测验的焦
      虑与被试的能力、抱负水平以及测验经验有关。过度
      的焦虑对测试有不良影响,从而产生测量误差。
      多次反复性考试,考试实施的各种条件,不仅同一
      次考试各个考场之间要求一致,同一项考试的各次之
      间也要求一致。重复测验中如果有人首次测验后受到
      特殊训练,也会造成测量误差。另外,被试对测验的程
      序、内容材料的熟悉程度不同以及回答技巧的差异都
      会影响测量的一致性(李筱菊,2001:36)。
      3.3 减少评分过程中产生的误差
      评分不客观和记分出现错误也是较常见的误差来
      源。一般来说,客观题的评分较为准确客观,而主观题
      的评分标准难以掌握,再加上阅卷者的风格、情绪以及
      其他心理因素的干扰,都会影响分数的一致性。为了有
      效地控制测验实施中的误差,主试应该严格地遵守标准
      化的程序去施测和评卷记分,不得随意改动和发挥。
      评分标准必须一致。要求评分员与评分员之间保
      持一致(inter-rater consistency),也要求每个评分员自
      身保持前后一致(intra-rater consistency)。尤其是测验
      有多个评分者时,评分者偏好往往各不相同,很容易影
      响分数的一致性(薛荣,2010:45)。
      在语言测试中,主观性测试的评分过程是最难控
      制的,评分会受到各种因素的影响。以写作测试为例,
      写作分数会受到以下诸因素的影响:
      在评分过程中我们要努力提高评分者信度(soorer
      reliability)。由于主观性考试的评阅不可避免地受到
      评阅人主观因素的影响而导致误差,因此要最大限度
      地提高评分的准确性和一致性,减少人为主观因素对
      分数客观性的影响。评分者信度大致可以分为评分者
      之间信度(inter-scorer reliability)和评分者自身信度
      (intra-seorer reliability)两种。对于大规模语言测试而
      言,还会有评分点之间信度(inter-center reliability)的
      问题,因为大规模测试的评分点不止一个。对于多次
      反复性考试的评分,不仅要求每个评分员自身保持一
      致及评分员之间保持一致,还要求各次考试评分之间
      保持一致(曾用强,2007)。
      4 计算机化考试是减少语言测试误差的有效
      途径
      从命题、施考到试卷的评阅和分数的报道等各个
      环节,只要有人参与,都会有人为因素,都会产生误差。
      对大规模考试而言,只有充分利用信息技术和网络计
      算机考试,才能尽可能地消除人为因素,减少语言测试
      的误差。随着计算机技术日新月异的进步,计算机的
      功能有了跨越式的发展。在外语教学上,已远远超出
      了其辅助的功能。
      要提高语言测试的效度和信度,就要控制语言测
      试各个阶段的误差。随着计算机技术和网络技术的不
      断发展,计算机化测试(computer-based testing)必将成
      为未来语言测试的主要模式,也是控制语言测试误差
      的有效途径。关于计算机化语言测试对提高测试效度
      的作用,金艳(2012)认为,计算机化语言测试可以提
      高测试任务的真实性,减少与构念无关的因素引起的
      分数差异,使测试更全面、准确。计算机化语言测试不
      仅提高了测试的效率,更重要的是提高了测试的效度。
      曾用强(2012)对计算机化语言测试中的误差控制和
      考试设计原则做了论述。他认为,在题型设计方面,
      计算机化测试可以应用创新型题型;在试题组织方面,
      计算机化测试可以实现适应性测试;在能力估算方面,
      计算机化测试实现了多维的能力估算;在成绩报告方
      面,计算机化测试可以向考生提供及时的诊断信息。
      无论是美国的TOEFL考试还是我国的大学英语
      四、六级考试和英语专业四、八级考试,都在这方面做
      出了有益的尝试并且取得了良好的效果。从2001年
      8月开始,TOEFL在全球范围内结束纸笔测试的历史,
      全部实行计算机自适应考试。2005年9月,美国教育
      考试服务中心ETS在全球推出了一种全新的综合英
      语测试方法,即TOEFL iBT(Internet Based Test)。
      大学英语四、六级考试在考试内容和考试方式上也
      进行了相应的改革。其中,考试方法改革的思路是采用
      信息技术,推进计算机考试。2008年10月,全国大学英
      语四、六级考试委员会分别在北京、南京、西安和哈尔滨
      进行了大学英语四、六级计算机网络考试的试点。
      关于大学英语四、六级考试网考的重要意义,金艳
      (2009)认为:①网考提高了考试效度。②技术手段
      的运用使听和说、听和写等能力的考核融为一体,从而
      更有效地考核学生的英语综合应用能力。③实施网
      考将改变传统的教和学模式。课堂教学不再采用以书
      本为中心、以教师面授为主的教学模式。④网考可以
      大大减少考试对教学的干扰,而且考试时间和次数的
      灵活性也将缓解考生的压力(金艳,2009)。
      英语专业四、八级考试在计算机阅卷方面也进行
      了改革。自2009年5月起,TEM考试的阅卷模式由原
      先的纸阅模式过渡到计算机辅助阅卷模式。计算机辅
      助评卷系统是人工评阅经验与计算机技术的完美结
      合,人机互补,可以在一定程度上弥补人工评阅的不
      足,提高评卷质量。
      5 结语
      语言测试的分数不仅反映了学生的语言能力,还
      反映了其他一些因素,因此我们必须合理地解释和使
      用语言测试分数。在语言测试中,我们应该采取一切
      尽可能的措施来减少各种因素导致的误差,保证测试
      的信度。但是从理论上讲,任何考试都不可能达到百
      分之百的信度,也不可能完全消除误差。信息技术的
      和网络技术的不断发展,对语言测试产生了深刻的影
      响,也为语言测试模式的创新和发展提供了手段。计
      算机化测试必将成为未来语言测试的主要模式,也是
      控制语言测试误差的有效途径。

    推荐访问:真分数 误差 理论 语言

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章