• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 语文学习 > 正文

    统计机器翻译中翻译模型的约简概述_机器翻译模型

    时间:2020-03-11 07:17:10 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘要: 统计机器翻译从诞生至今获得了长足的发展,目前已经成为机器翻译的主流。但是作为基础模块之一的翻译模型却随训练语料的增大而呈现飞速增大的趋势。为了使统计机器翻译更加实用,翻译模型的约简一直是研究热点之一。概述了统计机器翻译中翻译模型约简的研究现状,相关方法主要围绕解码过程统计分析、训练语料中的统计分析、翻译模型中的短语对自身特点分析等三个类别。结合相关分析,最后也探讨了这个方向的未来发展趋势。
      关键词:
      中图分类号: TP391.2 文献标识码:A 文章编号:2095-2163(2011)01-0013-04
      
      0概述
       机器翻译(Machine Translation)是自然语言处理(N-atural Language Processing)的重要分支之一,其目的是借助计算机将文字或者语音从一种自然语言翻译成另外一种自然语言,例如将中文翻译成英文。早期的机器翻译借助基于语法规则的转换语法,在翻译词典的基础上实现源语言到目标语言的翻译。这种方法可以在特定领域取得很好的效果,例如天气预报。因为这些领域的翻译比较规律,容易总结出相关的翻译模式。然而针对较为复杂的领域,例如新闻或者旅游等,总结出的翻译模式就很难保证覆盖度和准确度了。
       从上世纪末开始,随着计算机计算能力和存储能力的不断提升,机器翻译方法中统计方法开始异军突起。目前非限定领域机器翻译中,统计方法是性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型结合语言模型来进行翻译(机器翻译中将翻译过程可以看成解码过程)。从发展阶段来看,统计机器翻译最早以基于词的方法为主,现在已经完全过渡到基于短语的翻译方法。统计机器翻译的研究方面,目前开始出现大量的融合句法信息的方法,以实现进一步提高翻译的精确性。但相对于基于短语的方法,基于句法的方法产生的翻译模型会庞大很多,相应的翻译速度也会慢很多。目前实用的统计机器翻译系统都主要集中在基于短语的方法上,现在的一些商用机器翻译系统也是基于短语的方法,例如Google的翻译系统。
      统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型,并运用最大似然准则进行无监督训练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来说需要参考语料进行有监督训练。
       统计机器翻译系统的翻译效果与用于训练翻译模型的双语平行语料的规模有关。普遍的共识是平行语料的规模越大,翻译的结果就会越准确。事实上,Google的翻译系统就是基于超大规模的双语平行语料训练出来的。但是,语料增大随之而来的问题就是得到的翻译模型的规模也会越大。在同样计算能力的条件下,翻译模型越大,翻译速度就会越慢。为了解决这个问题,很多科研人员开始考虑如何约简翻译模型的规模,例如从手机等移动设备的角度来尽可能约简。
       以Moses为代表的基于短语的统计机器翻译系统在双语平行语料上训练得到的翻译模型的格式如下:
      Source Phrase ||| Target Phrase ||| Related Features
      其中Source Phrase是源语言短语,Target Phrase是目标语言短语,Related Features是用于实际句子翻译过程中的短语对的相关特征。如下所示为实际的一个翻译模型所对应的一条短语对(Bi-phrase):
      很 多 议员 ||| many councillors ||| 0.04 2.15638e-08 1 0.000542039 2.718
       本文所述的统计机器翻译模型的约简就是对这些翻译的短语对进行相应的度量,并最终进行适当的剔除。后续部分还介绍了经典的统计机器翻译的处理流程以及模型约简的三个类别的方法。
      1经典的统计机器翻译处理流程
      统计机器翻译发展至今,相关软件的开源开发在其中发挥了重要的促进作用。下面以Moses为例,简述经典的统计机器翻译的学习和翻译的基本流程。
      统计机器翻译一般都从双语平行语料开始进行处理。先在句子对齐的语料库上调用Giza++词对齐程序进行迭代处理,在得到的词对齐结果上按照一些启发式规则抽取得到相应的短语对齐结果,例如上面提到的“Source Phrase ||| Target Phrase”。随后对这些抽取得到的短语对按照相应的统计方法得到与相关的短语对所对应的特征值,例如前面的“Related Features”及相关的那些数值。至此就得到了统计机器翻译的翻译模型。也就是说,大量的短语对及相关特征构成了翻译模型。
      接下来,实际的机器翻译解码器会在这个翻译模型以及另外训练得到的语言模型的基础上,通过一些调试数据对一些特征相关的参数进行调优。得到最优参数后,就可以在解码器的基础上对任意输入的源语言句子进行翻译。实际评测机器翻译性能的方法是将一些有多个参考答案的句子经翻译后,把翻译结果和多个标准答案比对,得到最终的得分。最常用的得分标准叫做BLEU值。BLEU值越高的系统被认为翻译质量最好。
      例如,在一个100万句对平行语料上经过词对齐、短语抽取处理得到的短语表的大小为68 968 597;在一个20万句对平行语料上得到的短语表大小为26 787 367。
      2翻译模型约简方法的三种类型
      统计机器翻译研究的经验表明,用于训练翻译模型的双语平行语料规模越大,最终机器翻译结果的质量就会越好。但是随着语料的增多,翻译模型的大小也会变得非常巨大。为了缩小翻译模型的大小,很多研究人员尝试了各种方法来对翻译模型中的短语对进行评估并删除质量较差的短语对。这其中,多数方法在翻译模型减小的同时,会降低最终解码器的翻译质量,即BLEU值;但也有一些方法能在翻译模型减小很多的情况下,最终的BLEU值却没有一点显著的损耗,甚至有方法能够使得BLEU值得到提高。最理想的模型约简方法就是在翻译模型大幅度减小的同时,最终的BLEU值也得到一定的提高。这种现状说明,翻译模型中有不少短语对对于最终的机器翻译起到了反作用。
      下面分四种类型来介绍这些翻译模型的约简方法。
      2.1根据解码器解码过程中短语对的出现情况进行约简
      实际的解码器在进行句子翻译时会穷举输入句子可能的各种切分结果,根据这些切分结果形成的Source Phrase在翻译模型中查询得到所有对应的Target Phrase,这些Target Phrase又会在不断深入的搜索中进行相应的排序,最终会被选中出现在翻译结果中的Target Phrase所对应的短语对被认为是重要的。实际上一个源语言句子的翻译结果会有很多个,通常解码器会根据需求输出最靠前的翻译结果,这些翻译结果被认为是系统输出的最终结果。
      Eck等[1]将一个在调试集上调好参数的解码器用来翻译一组大量的源语言句子,针对每个翻译模型中的短语对统计如下两个数值:
      (1)c(phrase pair)=短语对在语料翻译过程中被考虑(出现在翻译候选中)的次数;
      (2)u(phrase pair)=短语对出现在最终翻译结果(被选中)中的次数。
      对于每个短语对,最终的得分为:
      score(phrase pair)=[log(c(phrase pair)+1)]?�
      [u(phrase pair)+1] (1)
      最后将每个短语对,根据score从高到低进行排序,对于排序结果取出前N个短语对作为翻译模型约简的结果。
      Eck等[2]在上述工作的基础上进一步考虑到了短语对在翻译结果的N-best中的情况。如图1所示,针对某个源语言句子的翻译结果的N-best中,i-best包含ki个短语对。解码器会根据这个N-best顺序选择最优的翻译结果1-best。但是根据源语言句子的多个参考翻译结果,采用某种评价方法(metric),例如BLEU,实际上最好的结果是i-best。
      Eck等[2]的工作是根据i-best相对于1-best的距离关系来对各个i-best中的短语对打分,两种打分公式如式(2),式(3)所示,然后根据这个打分进行短语对排序并选择排序靠前的结果作为约简结果。
      Eck等的这两种方法都能够进行有效的约简,但是得到的约简翻译模型对应的翻译质量都有所降低,文献[2]的约简结果的翻译质量优于文献[1]。
      2.2根据双语平行语料中短语对的出现情况进行约简
      翻译对来自于双语平行语料,但翻译对的抽取却采用了一些启发式的方法。这些方法并没有考虑翻译对在双语平行语料中整体出现的情况。为此,针对翻译对在双语平行语料中的出现情况,研究人员分别提出了p-value, noise-value, C-value等方法。
      首先,定义翻译对的源语言短语Source Phrase为s,目标语言短语Target Phrase为t;C(s,t)为平行语料中源语言句子至少包含s的一次出现,同时目标语言句子至少包含t的一次出现的双语句对的句子个数;C(s)为平行语料中源语言部分至少包含s的一次出现的句子的个数;C(t)为平行语料中源语言部分至少包含t的一次出现的句子的个数;假设平行语料包含N个双语句对。根据这些统计量,得到s和t的联立表如表1所示。
      根据表1中的数据,Fisher精确检验采用如式(4),式(5)的超几何分布函数phg来计算精确的p-value统计量。
      Johnson等[3]采用的就是式(5)的p-value来对翻译模型中所有的短语对进行打分,随后按从高到低的顺序来择优选取短语对作为约简的结果。事实上,这种方法在将短语表约简到原始大小的大约10%时,还能使得最终的翻译质量得到提升。这是一种目前为止最好的翻译模型约简方法。
      随后,Tomeh等[4]在上述p-value方法的基础上,根据Moore[5]指出的p-value方法的缺点以及noise-value方法的优点,采用noise-value来进行翻译模型的约简。Moore[5]指出,针对出现频率较低的一些事件,p-value数值较高并不一定意味着s和t之间具有独立性。Tomeh等[4]采用的noise-value的定义如下:
      事实上,Tomeh et al.[4]的实验结果显示,虽然noise-value也能在将翻译模型约简到28%左右还能保证翻译质量不降低,但是Johnson et al.[3]的方法明显还是要好一些。
      上面两种方法都是在统计短语对的源语言短语和目标短语分别在平行语料中的出现情况。He等[6]借用术语抽取领域的C-value来衡量短语对的质量。一个短语对p的C-value主要考察四个因素:(L, F, S, N),其中:
      (1)L(p)是短语对中源语言短语的长度;
      (2)F(p)是源语言短语在语料中的出现频率;
      (3)S(p)是源语言短语在语料中作为子串出现在其他更长短语中的频率;
      (4)N(p)是语料中包含源语言短语的短语的个数。
      具体的计算算法是:
      C-value在术语抽取领域被广泛使用,He等[6]指出这种方法在翻译模型约简到22%时还能保证翻译质量的BLEU值不降低,并且将这个数值作为解码器的附加特征进行参数调优后在22%的约简前提下,BLEU值还能有一定的提高。
      2.3根据短语对的内部词对齐情况来进行约简
      上面的两类方法都是在考察短语对在平行语料中的情况,这里的第三类方法重点考察短语对内部的对齐情况。因为短语对是在平行语料词对齐结果的基础上抽取得到的。
      Sánchez-Mart?�nez等[7]考虑了短语对中的词类情况。文中将词语分成开放词类(Open Words)和封闭词类(Closed Words)。根据两条原则来剔除短语对:
      (1)如果短语对的源语言短语或者目标语言短语包含开放词类,但是至少有一个开放词没有在另一端对齐到开放词类上;
      (2)在上一条原则的基础上,如果短语对的任何一端的第一个或者最后一个词语对空。
      注:对空现象是在进行对齐短语抽取时可能产生的现象,例如“我们 一起 吃饭 ||| let's have dinner together but”中的but。
      针对相关的语言,Sánchez-Mart?�nez等[7]定义了封闭词类包含哪些类别以及具体的词语,没有包含其中的词语都是开放词类。图2分别定义了英语、法语、西班牙语的封闭词类。
      这种启发式的方法得到的翻译模型约简会导致翻译结果的BLEU值降低1-2个点。
      基于此,He等[8]将短语对的内部对齐情况分成两大类:不能再分拆的最小对齐,和由最小对齐构成的组合对齐。例如图3左图表示最小对齐,右图表示组合对齐。
      在组合对齐里,又分为单调组合(如图4左图)和非单调组合(如图4右图)。
      He等[8]的方法是将翻译对里单调组合的短语全部剔除,因为这种单调组合的短语在实际解码过程中可能通过最小对齐的短语对顺序地拼接而成。仿真实验结果显示,在翻译模型被约简为原始大小的30%左右时,相应的BLEU值还能有一点提高。从约简计算的代价来看,也是值得推广的。
      3结束语
      统计机器翻译的研究越来越热,刚刚结束的自然语言处理顶级会议ACL2011中机器翻译达到了史无前例的7个分会场[9]。随着机器翻译的深入研究,相信会产生更多的关于翻译模型约简的研究成果。在本文综述的四类方法中,笔者认为最好的方法是基于Fisher精确检验理论的Johnson等[3]的p-value的方法,因为在模型约简到原始大小的10%左右规模的同时,还能得到测试语料上BLEU值的提高。当然,这种Fisher精确检验的方法存在的一个问题是对翻译模型完成一次约简需要一定的时间,而这是因为Fisher精确检验方法的计算复杂度相对较高。如果为了进行快速的翻译模型约简,可尝试He等[8]的剔除单调组合对齐的短语对的方法。
       笔者针对翻译模型约简进行过一些尝试。在统计学中,Fisher精确检验比传统的卡方检验效果要好,但还存在一种理论上比Fisher检验更好的方法――Barnard检验[10]。Barnard检验是在[0,1]区间内寻找一个最优的度量值来作为检验的结果,虽然理论上更优,但是计算量惊人。如果Barnard检验的计算复杂度能够降低的话,应该是一种非常值得探索的方法。
      参考文献:
      [1] ECK M,VOGEL S,WAIBEL A. Translation model pruning via usage statistics for statistical machine translation[C]// Human La- nguage Technologies 2007: The Conference of the North Ameri- can Chapter of the Association for Computational Linguistics; C- ompanion Volume, Short Papers, New York Rochester:Associa- tion for Computational Linguistics,2007:21-24.
      [2] ECK M,VOGEL S,WAIBEL A. Estimating phrase pair relevan- ce for translation model pruning[C]// Proceedings of the MT Su- mmit XI,2007.
      [3] JOHNSON H,MARTIN J,FOSTER G,et al. Improving transla- tion quality by discarding most of the phrasetable[C]// Proceed- ings of the 2007 Joint Conference on Empirical Methods in Na- tural Language Processing and Computational Natural Language Learning (EMNLPCoNLL), Prague, Czech Republic: Association for Computational Linguistics,2007:967-975.
      [4] TOMEH N,CANCEDDA N,DYMETMAN M. Complexity-basedphrastable filtering for statistical machine translation[C]// Proce- edings of the MT Summit XII,2009.
      [5] MOORE R C. On log-likelihood-ratios and the significance of rare events[C]// Lin Dekang, Wu Dekai. Proceedings of EMNLP2004, Spain, Barcelona: Association for Computational Linguis- tics,2004:333-340.
      [6] HE Zhongjun,MENG Yao,LV Yajuan,et al. Reducing smt rule table with monolingual key phrase[C]// Proceedings of the ACLI- JCNLP 2009 Conference Short Papers,Singapore,Suntec:Associ- ation for Computational Linguistics,2009:121-124.
      [7] Sánchez-Martnez F,Way A. Marker-based filtering of bilingual phrase pairs for smt[C]// Proceedings of the 13th Annual Meeting of the European Association for Machine Translation (EAMT-09), Citeseer,2009:144-151.
      [8] HE Zhongjun,MENG Yao,YU Hao. Discarding monotone comp- osed rule for hierarchical phrase-based statistical machine tran- slation[C]// Proceedings of the 3rd International Universal Comm- unication Symposium, ACM,2009:25-29.
      [9] http://www.acl2011.org/program.utf8.shtml.
      [10] http://en.wikipedia.org/wiki/barnard%27s_exact_test.

    推荐访问:机器翻译 概述 模型 统计机器翻译中翻译模型的约简概述 统计机器翻译综述 神经网络机器翻译模型

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章