可读性公式 [论传统可读性公式的不科学性]

时间：2019-02-12 03:32:22　来源：雅意学习网本文已影响人

　　摘要：传统可读性公式的研制者认为字长、句长是预测词义、句义难度的最佳变量。本文通过相关性分析和回归分析论证字长、句长不能预测词义、句义难度。传统可读性不能为人们判定文本难易度提供科学有效的依据。
　　关键词：可读性公式可读性易读度定性定量分析
　　
　　引言
　　可读性是文本的难易程度。可读性公式是计算文本难度的方程式。传统可读性公式，如Flesch公式、Dale-Chall公式大多诞生于上世纪30至60年代，其共同特点是：用单词数（或音节数）计算词义难度，用句子长度计算句法难度。这就是人们对传统可读性公式的争议的焦点：用字长、句长能不能预测出难度。
　　可读性公式自诞生起就是语言学界和教育界最受争议的话题之一。如1981年，国际阅读协会和美国英语教师协会建议其成员不要滥用可读性公式评估教学材料。近年来，由于互联网和字处理软件提供免费可读性公式，出现了用可读性公式评估电子书、网站的新趋势。
　　本文从学术交流的角度出发，首先介绍可读性研究的方法，然后从相关分析和回归分析论证传统可读性公式的不科学性。
　　
　　1. 可读性的研究方法
　　可读性研究常用方法有相关性分析和回归分析。相关系数r表示变量或现象的相关程度，如字长和难度的相关程度；回归分析可从一个或多个变量（自变量）推测另一个变量（因变量）。Klare概括了设计可读性公式一般步骤：
　　1）挑选标准文本，测出标准文本的难度值（因变量）。
　　2）判定影响难度的因素（预测变量）。
　　3）计算标准文本中难度因素出现的次数，并分析其与难度值的相关性。
　　4）选取相关系数较高的因素作为自变量。
　　5）用回归法，得出可读性公式。
　　近年来，出现了以大型数据库为基础的新可读性公式，如Lexile和ATOS，它们仍然使用字长句长来计算文本难度。公式支持者的结论是字长、句长是预测难度的最佳预测变量（Dubay）。他们的主要依据是试验数据显示字长、句长和难度的相关系数较高。
　　
　　2. 相关分析和回归分析
　　传统可读性公式借助统计学的相关分析和回归分析来研究语言，但研究者却没有按照统计学原理判定影响难度的因素和验证公式的科学性。以Gray 和 Leary在1935年得到的试验数据为例（表2）。表2的两组数据分别为影响难度的17个因素和各因素与难度的相关系数（�r�＞0.35）。Gray 和 Leary最后选择了 1（句长）、5（字长）、8（人称代词数）、15（不同词比例）得出了可读性公式。后人借鉴他们的研究结果，把字长句长定为预测难度的最佳预测变量。
　　
　　表2：Gray 和 Leary得出的影响难度的主要因素（Dubay）
　　表面上看，他们的选择是合理的：字长、句长是与难度相关系数较高的一个。这也符合人们的直觉：长字、长句更难理解。但进一步分析，不难发现这一结论是错误的：
　　2.1相关系数不能证明字长、句长是最佳预测变量
　　表2中影响阅读的因素都有一个共同的特点，它们都为各种数字：长度、个数、百分比，而用这些数字计算相关系数的前提是定性分析（张集琼），即应首先判断因素和难度是否有联系，有什么样的联系，然后才能计算相关系数。从性质的角度分析，字长、句长和难度没有直接联系，它们只是单词、句子的浅层形式――长度，根本不能完全代表字义、句义。如果用性、量、度来计算难度，长度仅是较次要的一方面，也就是字长、句长不能当作自变量放到回归公式中了。
　　其次，从量的角度分析，相关系数也不能证明字长、句长有数的绝对优势。表2中各个因素相关系数差别很小，而且相关分析只研究变量之间相关的方向和程度，不能推断变量之间相互关系的具体形式，也无法从一个变量的变化来推测另一个变量的变化（刘学华）。以人称代词为例，它们有时是产生难度的因素，有时又是促进理解的因素。如：
　　1）Paul told John that he wanted to help him out.
　　2）Paul told all students that he will help them.
　　两个句子中人称代词都出现了两次，但句2由于人称代词高密度，远比句1难理解。如果文章中两种情况的人称代词出现数量不同，会使人称代词与难度的相关系数发生高低不同的变化，即人称代词和难度的关系图不是直线，而是不规则的曲线。曲线用相关系数分析已没有意义。人称代词如此，名词、形容词也是如此。这种现象在字、词、句、篇章各个层面上都会发生。
　　相关系数也不能反映某些出现数量较少的因素的作用。例如，标题在一篇文章中只出现一次，好的标题能够唤起读者的背景知识，使难的文章变得更简单。它与难度的相关系数肯定没有字长与难度的相关系数高，因为次数这个计量单位不足以显示其重要性。
　　从以上不难得出，缺少定性分析，仅凭相关系数就判定难度要素的错误，这就好像是让儿童与成人的赛跑，儿童肯定会输的，因为他们就不在同一级别上。
　　2.2 字长、句长和难度不是因果关系
　　用回归法得到的可读性公式中字长、句长和难度应是因果关系，才能进行回归分析。在字长、句长和难度是不是因果关系上，传统公式的研制者一直避而不谈。的确，现代统计学和传统统计学对此也有分歧。传统统计学注重定性分析，而现代统计学注重定量分析。但我们还应该从可读性公式的性质和用途来具体分析。可读性公式已不再是个人预测难度的研究手段，它已经被当成测试工具应用到教育、出版等各个领域。个人研究可以仅从数量关系上研究数量变化规律，而不考虑研究对象的性质，而作为划分阅读材料等级的工具就应该是科学而严谨的。因此我们还是使用严格的统计学定义：相关分析中，变量之间可以不一定是因果关系，而回归分析中，变量之间应该是因果关系，即因为词长、句子长，所以文章难。
　　因为词长、句子长，所以文章难，只是人们的直觉。文章难的真正原因是作者要表达的思想深，作者使用的结构复杂。长度和难度不是因果关系，而是相伴关系。使用非因果关系的字长和句长替换真正的原因来预测难度必须满足以下条件：所有的长词、长句都难，即长度和难度成线性关系。这个条件很难满足，因为英语中有很多长词、长句比较简单，很多短词、短句却很难。作者在写作时考虑的主要是内容，而不是字词句的长短。最好的例子就是爱因斯坦的相对论，用某可读性公式计算，它只有五年级的水平。
　　使用非因果关系的字长、句长作为自变量会得到一个虚假回归，因为回归分析只是从一个变量的变化来推测另一个变量的变化情况的定量分析方法，非因果因素，甚至毫不相关的因素都可以推出个结果。如英语中最常用的字母e，其出现频率为八分之一，用字母e也可以设计一个可读性公式。这样的回归模型已经没有什么预测价值和分析价值。至于传统可读性公式预测到的是什么，已经没有统计学原理可以解释。
　　
　　结语
　　综上所述，传统可读性公式研究者借助统计学的相关分析和回归分析来研究语言，却没有严格按照统计学原理寻找影响难易的因素和验证公式的科学性。没有通过定性分析和因果分析的字长、句长不能当成变量进入可读性公式，它们更不是最佳变量。传统公式的错误根源在于脱离语言环境，仅凭高度概括的数字寻找产生难度的“共力”。虽然传统可读性公式是一种简单方便地判定文本难易度的工具，它对人类语言难度研究做出了很大的贡献，但这并不能掩盖其不科学性，传统可读性公式不能为人们判定文本难易度提供科学有效的依据。
　　
　　参考文献：
　　［1］ William H. DuBay. The Principles of Readability［M］. Impact Information， 2004.
　　［2］ Klare G.R.. Readability Handbook of reading research［M］. New York Longman， 1984.704.
　　［3］张集琼. 统计学原理［M］.科学技术文献出版社，2001.
　　［4］刘学华. 统计学原理［M］.立信会计出版社，2003.

推荐访问:可读性科学性公式传统

可读性公式 [论传统可读性公式的不科学性]

最新文章

热门文章