• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 语文学习 > 正文

    【平行语料库在外贸函电机器翻译中的应用】 平行语料库

    时间:2019-01-09 03:33:43 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘 要: 本文介绍了外贸函电平行语料库的构建,重点探讨了外贸函电平行语料库中的语块提取和并列结构处理,使平行语料库的外贸函电机器翻译的质量得到提高。   关键词: 平行语料库 外贸函电 机器翻译 应用
      
      “平行语料”(Parallel Texts)是指使用不同语言撰写、相互间具有“翻译关系”的文本。在计算语言学界,它有别于“对比语料”(Comparable Texts),后者也使用不同的语言撰写,并且针对同一主题,但相互之间却不存在直接的“翻译关系”。人类历史上曾有过各式各样的平行语料。埃及出土的罗塞塔石碑,其碑文用两种语言、三种文字刻成,是颇具盛名的古代的平行语料。通过比较石碑上的文字,法国古代语学者商博良解读了古埃及的象形文字。此外,用不同语言对照书写的契约协议、宗教经典、文学作品也在不同的时期和不同的领域影响着人们的生活。20世纪50年代末,平行语料开始出现在机器翻译研究中。由于当时计算机的存储空间和计算能力有限,而大量文本数据的输入又相当困难,所以平行语料库的作用并没有得到太多的关注。70年代末期,翻译资源的收集工作在Xerox PARC、Brigham Young 等研究中心广泛地开展起来。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行语料自动对齐算法。之后各种对齐方法层出不穷,对齐后的平行语料也被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。
      外贸函电是国际贸易中进行业务往来的重要工具,属于专门用途英语的范畴。机器翻译(MT)是一项技术,它允许我们用某种语言输入文本然后由计算机将其翻译为(从其自身的字典资源)另外一种语言。MT的目标不是完美的翻译,事实上没有计算机能够做到这一点;而是尽可能地向用户提供其阅读内容的大意。面对海量的外贸信函文件,传统的人工翻译已不能满足时代需要。以Google为典型代表机器翻译作为突破语言障碍的重要技术手段,因其较高的建设效率和翻译质量得到了越来越多的重视,成为当前研究的热点之一。
      1.外贸函电平行语料库的构建
      外贸函电是一种相对比较正式的公务文书,其一般目的是建立和保持良好的业务关系、获得或发布供求信息、达成合作和交易等。我们构建的商务信函平行语料库的语料收集范围为商务业务信函,分为建立业务关系函、产品推销函、资信调查函、询盘函、发盘函、还盘函、订购函、销售确认函、签约函、催证审证函、装运通知函、付款方式函、索赔函、保险函等,这些信函涉及外贸活动的全过程。在语料库语言学理论的指导下,我们通过初步建立一个100万词次的英汉双语商务信函平行语料库(包括两个子库:英汉商务信函平行语料库,汉英商务信函平行语料库)。该库为动态的、开放的,可以自动获取服务于机器翻译的知识资源。
      2.外贸函电平行语料库中的语块提取
      语块提取是近年来语料库语言学和机器翻译研究领域的重点课题。濮建忠教授(2003)把“语块”(chunks)定义为:“语块(词块)是以词形或词为基本单位,由连续或非连续的两个或多个词形或词组合而成的,允许抽象度高于词的单位出现的,有一定使用频率、结构相对完整、能表达一定意义的,有心理现实性的语言形式,以整体形式储存在大脑中,并可作为预制组块供人们提取使用的多词单位。”外贸函电中的语言大多是具有一定的言语程式或行话,如:Enclosed please find...(随函附寄……,请查收),cash on delivery(货到付款)等。Sinclair(1991)认为:那些出现频率高的词汇串成了英语中基本的语言单位,大约70%的英语语言由存储于人体大脑的语言板块构成。确定一个多词单位是否为语块,可以从语块的三个重要特征加以界定和区分,即语块共现的频率性、语块储存和提取的整体性、语块可记忆的韵律性。我们在语块理论的指导下,从结构和功能上明确英汉外贸函电中的语块特征,从而确定提取的具体对象。商务信函语块可分为4种情况:
      (1)多词词汇,如:buy cheap and sell dear,firm offer等。
      (2)习惯搭配,如:...for your reference,an offer subject to...等。
      (3)惯用表达式,如:As requested,...,Enclosed please find...等。
      (4)句型框架,如:We look forward to hearing from you...等。
      为了进行商务信函平行语料库中的语块提取,我们提出了一套特有的提取方法――外贸函电语块提取法。
      外贸函电平行语料库中的语块提取是基于实例的外贸函电机器翻译的重要方法,为进一步对大规模各种专业的双语语料利用计算机自动提取语块提出思路和设想。
      3.基于平行语料库的外贸函电机器翻译中并列结构的处理
      在外贸函电机器翻译研究的探索实践中,我们逐渐认识到,单纯使用一种方法难以处理自然语言中各种复杂现象。所以,我们提出了在统计机器翻译基础上引入特定语法结构的一种方法――并列结构的英汉翻译转换方法。基于商务信函平行语料库,通过句法分析研究并列结构的形式化构成、连接词的前后管辖范围、内部嵌套情况及并列结构前后临界搭配的情况,并制定可行句法转换规则。
      并列结构是最普遍的一种复杂结构,它推动了句子复杂化和简单化的双向活动,但目前的算法对并列结构的处理错误比较严重。英语有许多复杂的句子,它们往往有许多嵌套或者不嵌套的并列结构,翻译系统如果将并列的辖域和层次关系及前后界限分析错误,就会严重影响翻译的结果。例如,带有连接词“and”的并列结构,通过Google翻译系统的测试,得到如下译文:
      原文:We all understand that Chinese slippers are very popular in your market for the superior quality and competitive price of their products and service.
      译文:大家都明白,中国拖鞋在您的市场很受欢迎的高品质及他们的产品和服务竞争力的价格。
      分析:该译句第一个and的后半部分辖域判断过长,造成错误。可以看出统计机器翻译对并列结构等复杂结构的处理并不理想。即便是在局部翻译处理正确的情况下,结构翻译错误往往会造成整体译文不知所云。我们的研究方法:(1)参照北大双语语料库加工标注规范,利用双语对齐软件及人工校正达到外贸函电平行语料库的句子级对齐。(2)通过基于统计学手段寻找测试语料中的并列结构,确定相当数目的测试集,并按照当代语言学理论及形式化理论对其分类。(3)将各类测试集送入Google统计翻译系统进行翻译,得出译文,分析错误原因,进行错误归类。(4)将各类测试集送入基于统计的句法分析系统,分析结果,制定规则。
      经过Standard Parser(经典统计句法分析器)的分析,例句的分析结果如下:
      ……
      (PP (IN for)
      (NP
      (NP (DT the) (JJ superior)
      (ADJP (NN quality)
      (CC and)
      (JJ competitive))
      (NN price))
      (PP (IN of)
      (NP (PRP$ their) (NNS products)
      (CC and)
      (NN service)))))……
      通过基于统计的句法分析器进行分析,例句中的并列结构分析完全正确。
      4.结语
      综上所述,平行语料库在外贸函电机器翻译中的应用研究具有多方面的意义。
      (1)它是国家科技支撑子课题HNC机器翻译引擎转换处理研究的组成部分,为研制HNC经贸机器翻译系统创造必需的条件。
      (2)它构建的外贸平行语料库为英汉双语外贸函电学习者、翻译学习者及工作者的研究与学习起到辅助作用。
      (3)它构建的外贸函电平行语料库中的语块提取方法,为进一步对大规模各种专业的双语语料利用计算机自动提取语块提出思路和设想。
      (4)语块提取与并列结构处理为英汉统计机器翻译和机器辅助翻译的译准率提高起到重要作用。
      
      参考文献:
      [1]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司,2004.
      [2]濮建忠.英语词汇教学中的类联接、搭配与词块[J].外语教学与研究,2003.6.
      [3]张新红,李明.商务英语翻译[M].北京:高等教育出版社,2003.

    推荐访问:语料库 机器翻译 函电 平行

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章