• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 理科资料 > 正文

    对外汉语教材_对外汉语教材等级词频统计模块构建

    时间:2019-01-14 03:32:14 来源:雅意学习网 本文已影响 雅意学习网手机站

      【摘要】在对外汉语教材的编著过程中,用词频度和难度直接影响教材编著的质量。根据《汉语水平词汇与汉字等级大纲》(以下简称《大纲》)8000多等级用词目、词性、难度等级三个属性,设计并实现对外汉语教材编著系统难度等级词频统计模块,并在20万教材语料基础上,进行实验。实验证明,在速度上取得了较为良好的效果。
      【关键词】对外汉语教材编著系统;词频检索统计;汉语词汇等级;键树
      【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097(2009)07―0086―04
      
      一 引言
      
      教材编写是对外汉语教学资源建设的重要环节,如何提升教材编写的速度和质量,使人们从教材编写过程中那些诸如查找生词、控制词汇、加注拼音等费时费力而且容易出错的繁琐工作中摆脱出来,现代技术手段的有机融入是非常必要的。正如崔永华教授所说的那样:“只有语言学、语言教学和现代技术的完美结合,才能让编写教材变得这么方便、快捷、准确、得心应手。”【1】对外汉语教材编著系统应运而生,陈锋在其硕士论文《对外汉语教材编写辅助系统的设计与实现》[2]中提到编写教材的流程图如图1所示。随着计算机、网络、语料库等技术的飞速发展,现代教育技术在对外汉语教学中的应用范围不断拓展,这为对外汉语教材编著系统的技术实现提供了可靠的保障。
      
      如何控制教材编写难度等级以适应不同水平教材使用者的需要,同时避免汉语教学内容的盲目性和随意性,一直是教材编写者面对的重要问题。编写者控制教材难度,主要是通过量化语言点,即对词汇、语法、功能、文化进行分级,检查教材语料分级语言点覆盖以及分布情况,并反复修改教材内容,来达到控制教材水平的目的。在实际操作中,由于词汇的可控制性最强,所以,水平等级教材主要是在词汇上控制难度[1]。
      基于以上论述,本文将尝试着设计并实现对外汉语教材编著系统中的难度等级词频统计模块。以《大纲》[3] 8000多等级词汇为难度等级依据,统计模块将分别统计出汉语教材语料词汇中甲、乙、丙、丁、超纲词频率,以及这些词在教材各处的分布情况,以确定教材的用词难度,教材编写者可依据该模块得出的统计结果对教材用词进行相应的调整以控制教材的难度水平。
      
      二 难度等级词频统计模块设计与实现
      
      目前,出现了一些辅助对外汉语教材编著工具,主要有储诚志博士设计的《中文助教》[4]和厦门大学卢伟等人开发的“基于WEB的对外汉语教材编著系统”。《中文助教》通过8000多万字的现代汉语平衡语料库处理分析得出常用度等级生词,提供了使用频度分析[1];卢伟等人开发的对外汉语编著系统中,利用《大纲》对教材语料进行等级词语检索统计以实现教材的定量分析与控制[5]。这两类工具的教材难度定量分析任务,主要还是通过词汇难度划分来实现的,因此,本文将借鉴此思路,使用《大纲》作为教材难度等级词频分析的重要依据。
      《大纲》(1992年)由国家对外汉语教学领导小组办公室修订完成,它不仅为对外汉语教学词汇量的界定、等级的划分、词性的确定等方面提供了较为科学的依据。同时它也是现阶段国内对外汉语教学设计、教材编写、课堂教学的主要依据,有着严谨的结构和权威性[6]。本文难度等级词频统计模块设计将直接参考《大纲》中的词汇的词性、难度等级等信息。
      1设计思路
      本文的设计思路如下图2所示:
      
      汉语是以字为单位,词与词之间没有明显的边界信息。当句子长度和句子结构复杂性增加,句中出现的词数量随之增多,除了检索过程中词汇歧义问题将越发突出外,词检索次数也越发频繁。为了解决这些问题,本文首先使用分词模块对教材语料做分词处理,让处理后的语料得到精确的边界、词性信息;然后,在检索统计模块中,根据分词后语料携带的各种信息,参考《大纲》中给出的词汇、词汇难度等级、词性三者对应关系,做归类统计操作,获得词频、词性词频、词等级难度词频、超纲词数目以及等级词汇和超纲词汇在不同语篇中分布等各类信息。其中,词汇、词汇难度等级、词性对应关系如图3所示:
      
      2 检索统计模块实现
      文本检索依赖于关键词模式匹配。多关键词模式匹配是从目标文本中一次查找匹配多个关键词的过程。文献[7]中借用键树结构[8](图4所示)的双链树形式保存关键字,使用了多关键词模式匹配进行检索。它的具体做法是:将所有待搜索关键词保存在键树结构中,用叶子结点标志关键词结束,并且在叶子结点中也保存了关键词的频率信息;检索统计时,使用广度优先搜索来匹配目标文本串和树中多个关键词,如果目标文本串在键树中存在一条从根到叶子节点的路径,统计频率加一,否则,放弃对当前的操作,继续处理下一个词。
      
      本文在文献[7]的基础上,以《大纲》词汇作为关键词集,在深入分析《大纲》中8000词的基本特征规律、存储特征及词首字在区位码中的分布情况基础上,设计哈希表与键树相结合的存储结构,实现对外汉语教学编著系统中的词汇等级难度检索统计功能。
      (1)基于哈希表与键树相结合的存储结构
      受关键词首字取值以及关键词词长影响,《大纲》关键词存入键树后,形成了一棵根节点孩子兄弟分支深度达到2000多层,而其它分支深度不超过5层的键树结构。如果能将关键词的首字以某种方式进行分类,重新组织键树结构,将能有效的缩短最长分支的长度。由此,我们考虑到了汉字区位码,利用《大纲》关键词首字在区码的均匀分布情况,解决以上问题。
      汉字在区位码中占72区,其中16区到55区为一级汉字;56区到87区为二级汉字。《大纲》中关键词首词有2057个,一级汉字有2495个,二级汉字只有8个,绝大部分首字分布在一级汉字中。对这2495个首字在一级汉字区的深入分析,我们发现这些汉字几乎是等概率分布于各区中,数据如图5所示。
      
      本文采用哈希表和键树相结合的存储结构,利用关键词首字区码分割《大纲》关键词键树,将其转化为多颗子键树存储在哈希表中,使每个子键树和哈希表中唯一的存储位置相对应。改造后的结构如图6所示:
      
      (2)构建存储结构步骤:
      ①采用汉字GB-2312码与区号的对应关系,作为哈希映射函数。插入前,找出关键词首字,使用首字的GB-2312码计算出区码,获得哈希表中当前关键词待插入位置。汉字区位码与GB-2312码对应关系为:GB-2312码每个字符都用两个字节表示,第一字节为“高字节”,由字符的区号值加上32而形成;第二字节为“低字节”,由字符的位号值加上32。
      ②确定子键树在哈希表中位置后,查找子键树中是否已存在该关键字,如果不存在,则将关键字插入子键树中;如果存在,直接转入步骤③
      ③检查关键字叶子的结点中,相关的词性、难度等级信息是否建立。如果不存在相关信息,就建立词性、难度等级间的对应关系;否则,继续插入下一关键词。例如:“把”字在难等级词表中出现了两次,一次为甲级,对应介词、量词;第二次为丙级,对应动词。检查“把”字时,也需要两次确认词性、难度等级间的对应关系。
      3 实验
      我们的检索统计实验语料来自于《新实用汉语课本》、《菲律宾华语课本》、《今日汉语》、《当代中文》、《基础商务汉语》等5部汉语教材,语料多达20万字。以《现代汉语语法信息词典详解》[9]基本词类中定义的18个词性,附加词类中定义的5个词性(前接成分、后接成分、成语、习用语、简称略语)为标准,使用中科院ICTCLAS分词系统(研究版)进行分词,对单独使用键树结构和哈希表与键树相结合存储结构,在语料量和关键字数量上,进行检索统计对比。硬件环境为Inter Pentium(R) D CPU 3.0 Hz,内存2.0 G;软件环境为Window XP,MyEclipse 6.0,JRE1.6。实验结果如表1所示。
      
      上表对比分析,语料量大小直接影响检索速度;而在语料量相同的情况下,使用改进后的哈希表与键树相结合存储结构分别存储《大纲》4000词和8000词作为关键词进行检索,两者耗时相差不大。
      此外,我们选用畅销海内外的《实用汉语课本》第一册到第五册教材课文,进行词频、词性词频、词等级难度词频、超纲词数目等统计操作。经过重叠词、地名、人名、时间词、数量词过滤后,得到如表2所示数据。
      
      通过对《新实用汉语课本》1-5册的定量分析,总体来看,随着教材水平层次的加深,甲级占比例逐渐减少,乙、丙、丁级则逐渐上升。一般情况下,对外汉语教学大纲根据教学目标将教材分为初级、中级、高级,按照对外汉语教学领域经验,初级教材超纲词包括《大纲》丙、丁级词,中级教材超纲词包括《大纲》丁级词。文献[10]给出对外汉语教材编写和选用的一些参考值,如下表3所示。我们借用这种标准来衡量《新实用汉语课本》。《新实用汉语课本》1-2册为基础水平,第一册词汇总体上符合难度要求、第二册的词汇超纲量超出标准9个百分点;第三册、四册作为初级到中级衔接,我们将其按中级标准做处理,第三册、第四册、第五册的超纲词汇比例分别为:25.7%、23.4%、31%。因此,《新实用汉语课本》3-5册存在超纲情况,并且是略高于标准中的超纲范围。
      
      最后,我们选定了一些《大纲》词汇和超纲词汇,测试了这些词汇在《新实用汉语课本》系列教材课文语料中的分布情况,来检验教材循序渐进性(系统性)。如《大纲》甲级词汇“比较”,以动词词性在第4册50课和第5册55课中各出现1次,以副词词性在8篇课文中出现,其中第4册48课6次,第3册36课和第4册45课各3次;再如超纲词汇“聊天”共出现了4次,第3册27课2次,32课1次,第4册39课1次。这些也体现了该教材在词汇方面采取了螺旋式的安排方式,有利于学习者的掌握。
      
      三 结论
      
      本文基于《大纲》资源,利用现代教育技术对教材中词汇进行系统的计量分析,通过构建了辅助对外汉语教材词频等级统计模块,为教材中语料词汇难度定量分析提供了基础。今后,随着外汉语词汇教学中对词汇常用义项日益重视,要求我们下一步工作主要集中在一个方面,即参考其它词汇教学大纲或词典,用已有的模块统计大规模教材语料,确定词汇的常用义项,人工对词义项划分难度等级,将词义级的词汇频度统计引入到我们的系统中。
      
      参考文献
      [1]王飙.编教软件《中文助教》评述[J] .国际汉语教学动态与研究,2006,2:98-102.
      [2]陈峰,对外汉语教材编写辅助系统的设计与实现[D].南京:南京师范大学,2008.
      [3]国家汉语水平考试委员会办公室考试中心.汉语水平词汇与汉字等级大纲[S] .北京:经济科学出版社,2001.
      [4]《中文助教》网站[EB/OL].省略/Jianti%20ChineseTA%20Feature.htm>
      [5]卢伟.基于WEB的对外汉语教材编著系统理论依据与设计开发[J].外语电化教学,2006,6:30-35.
      [6]李泉.对外汉语课程、大纲与教学模式研究[M].北京:商务出版社,2006:113-114.
      [7]马志柔,叶屺.一种有效的多关键词词频统计方法[J] .计算机工程,2006,32(10):190-193 .
      [8]严蔚敏,吴传民.数据结构(C语言版)[M].北京:清华大学出版社,1996:247-248.
      [9]俞士汶.现代汉语语法信息词典详解[M](第二版).北京:清华大学出版社,2003:41-42.
      [10]国家对外汉语领导小组办公室,高等学校外国留学生汉语教学大纲(长期进修) (第三版) [M],北京:北京语言大学出版社,2007:18.

    推荐访问:词频 模块 构建 对外汉语

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章