• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 英语学习 > 正文

    [在线翻译网站英译汉排歧质量比较]英译汉在线翻译扫一扫

    时间:2018-12-26 03:30:42 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘要: 语义排歧的质量是决定机器翻译优劣的重要标准,本文以六个较为常见的在线翻译网站为研究对象进行比较,从而了解我国大众网络翻译的现状及存在问题。   关键词:在线翻译 语义排歧 英译汉
      
      1.机器翻译及其软件类型
      机器翻译(Machine Translation,简称MT),就是利用机器(或计算机)翻译系统能把人类语言翻译的法则,转变成电脑运算的法则,将输入的原始语言(Source Language)翻译成所需的目标语言(Target Language)。目前,机器翻译软件大致可以分为四大类[2]:①词典类翻译软件;②汉化翻译软件;③以自动翻译为核心的专业翻译系统;④在线翻译网站。
      2.机译中语义排歧的普遍方法
      无论哪一种机器翻译软件,语言歧义的排除是最大的难题,这已经成为机器翻译发展的瓶颈。如果词义排歧不能解决,机器翻译的质量就不可能有质的提高。目前机器翻译学者提出的排歧方法如下[1]:①选择最常见的涵义,这种方法简单易行,大多数翻译系统都有采用,但排歧效率非常低;②利用词类进行词义排歧,能有效地缩小词义选择范围,但是当两个义项属于同一词类时就无法排歧,不过可以配合其他方法一起使用;③基于选择限制词义排歧,是国内外研究得比较深入的排歧方法,例如普林斯顿大学开发的WordNet和中科院建立的HowNet都是根据此法的研究成果;④基于共现特征的词义排歧,根据共现词出现在目标词左右固定词距的窗口内,确定目标词的意思,这种方法不能因词而异,所以要结合利用词类进行词义排歧,并且要规定共现词出现的位置和结构,结合其他共现特征,这样才能尽量准确地排除歧义;⑤无指导的词义排歧,对大量语料进行计算统计,形成共现频率表,这种方法也称“向量内聚”,但要标注每个多义词在语料库的各个语境中的具体义项,否则大量干扰词会严重影响排歧效率;⑥基于词典的词义排歧,这种方法首先计算上下文中相邻词定义间的相似度,然后选择定义相似度较高的义项,主要缺点是计算机可读词典中每个词的定义通常太短,为排歧提供的信息不足。
      3.机译中英译汉排歧质量的比较
      华建[3]、谷歌[4]、雅虎宝贝鱼[5]、上海华译看世界[6]、金桥谷词[7]和译星[8]是比较受欢迎的在线翻译网站。以下针对不同的测试点参照不同的排歧方法对这六个翻译网站的英译汉排歧质量作个比较。为了保证尽量客观地评价各网站,以下范例均从《牛津高阶英汉双解词典》里选择,具有一定的代表性:每个范例至少有一个多义词,涉及名词、动词、形容词、介词、副词、不定代词和被动语态等测试点,其中更不乏语用的处理分析。虽然例子简单,却可以通过分析发现在线翻译网站在语义排歧上的主要问题。
      3.1在线翻译网站对不常用词义的排歧效果
      以run为例,run一般作动词,作名词时常见义项为第一义项:act or period of running on foot,即:跑、跑步、奔跑、奔跑一段时间。但在a run of bad luck中的run取第五义项,意思是period or succession or spell,即时期或者一段时间,短语的涵义为a series of misfortunes,即一连串的不幸。六个在线翻译网站中,除了华建翻译为“一连串的坏运气”,译星为“一连串坏的运气”之外,谷歌和看世界翻译为“运行的坏运气”,雅虎为“不幸奔跑”,金桥更是误译为“一坏运气的跑步”。
      再如minute的常见词性是名词,以第一义项“分钟、片刻”使用最频,而在句子“We read through the minutes of the last meeting.”中的minute取名词的第四义项,即brief summary or record of what is said and decided at a meeting, esp.of a society or committee――会议记录,一般以复数形式出现,所以句子意为“我们从头到尾把上次会议记录看了一遍”。从六个在线翻译网站的翻译结果来看,除了译星误译为“分钟”,华建、金桥和雅虎为“记录”或“纪录”,谷歌和看世界译为“纪要”。
      对同类句例的英译汉查询结果分析得出:华建在对不常用词义的排歧选择上优于其他在线翻译网站,而译星和金桥在该类词义排歧上存在很大漏洞,所以有时译文很中肯,有时却荒唐得离谱。
      3.2在线翻译网站对不常用词性的排歧效果
      Back常见的词性依次为名词、形容词、副词和动词,在动词第四义项中,back意为bet money on(a horse,greyhound,etc.),即下赌注于(赛马、赛狗等)。例如:The favorite horse was heavily backed.(那匹热门马被下了重注。/人们在那匹热门马上下了重注。)比照六大翻译网站的翻译结果,除了华建译为“下注”,谷歌、雅虎、译星均为“支持”,看世界为“后盾”,金桥为“使后退”,其中,谷歌和看世界的译义为名词,没有译出动词词性。
      再举minute为例,该词一般作时间名词,由上述所说的第四义项引申出不常用的动词词条――make a note of(sth.)in an official memorandum; record(sth.)in the minutes,即将(某事)载入备忘录或会议记录。对以下句子Your suggestion will be minuted.(你的建议将记录在案。)众在线翻译网站对句中minute的处理如下:华建翻译为“你的建议将被记录”;谷歌、看世界、金桥直接在译文中保留英语单词minuted;雅虎经过排歧处理,得出“您的建议将是微小的”,误取了minute作为形容词的义项;译星仍误译为“分钟”。
      再看这个例句:The detective studied the fingerprints in the minutest detail.此处的minute是形容词,意为very detailed; accurate or precise,即“极详细的、准确的、精确的”。整个句子意思是“那侦探仔仔细细地研究了各个指纹”。华建翻译为“侦探在微小的细节里研究手印”,minute的意思翻译得较为到位,也把介宾短语的状语作用显示了出来;谷歌和看世界在译文中保留minutest;译星依然不能摆脱minute的常见涵义“分钟”;雅虎则译为“探员学习了在详细的指纹”;金桥为“侦探学习最细微详细指纹”。虽然两个句子都翻译得很别扭,毕竟还能排除大量歧义最终选择“详细、细微”这类较接近的译文。
      通过大量查询结果比对发现,在线翻译网站对不常用词性的排歧效果普遍不佳,一些翻译网站如谷歌和看世界,只能束手无策地将原单词保留在译文中,而其他在线翻译网站虽然经过排歧处理,却难免误入歧途,要么选择了错误的词性,要么词性对了,词义又错了。针对该问题的排歧建议为:如果多义词以被动语态出现,如be minuted/be backed,此时排歧过程中首先排除形容词和动词以外的其他词性;如果多义词以最高级形式出现,例如minutest,则毫无疑问排除形容词外的其他词性及其词义。应该建立根据词语结构,如后缀和句子结构选择正确的词性的排歧步骤。
      3.3在线翻译网站对介词的排歧效果
      在短语travel by ferry“乘渡船”中,by是介词,在牛津词典关于by作为介词的词条里第九义项为indicating a means of transport or a route taken,表示运输或取道的方式,如travel by boat / plane/air/land/sea,即:乘船/乘飞机/航空/陆路/航海旅行。查询六大在线翻译网站后得出:华建翻译为“乘渡船”,雅虎为“旅行乘轮渡”(顺序颠倒),谷歌和看世界翻译为偏正结构的名词词组“旅行的渡轮”,金桥则取by作为介词的第三义项past sb./sth.(经过某人/某物),翻译为“经过渡口移动”,译星译为“通过渡轮的旅行”,将by理解为第六义项的through the means of (sth/doing sth)“通过(某事物/做某事)的方式”。除了华建和雅虎,其他网站对介词by的排歧出现了很大的偏差,尤其是谷歌、看世界和金桥。
      我们再回到句子“We read through the minutes of the last meeting.”观察介词through的排歧效果。对于read through,华建和金桥翻译为“读完”,谷歌和看世界为“读通过”,雅虎为“通过……读了”,译星为“通过……阅读”。read through有“通读”的意思,但针对会议纪要,最好翻译为“从头到尾地看了一遍”。华建和金桥译文最接近原意。through在介词词条的第二义项为from the beginning to the end of(sth.)从(某事)的开始至结束、自始至终、从头到尾,如:I’m half-way through (reading)his second novel.(他写的第二本小说我正看了一半儿。)而翻译为“通过”的各网站把through理解为第五义项past(a barrier),即通过(障碍),因为这个义项是through最常见的涵义。产生较大误差的译文是由于选择过程中没有结合共现词read排歧,而单纯地以常见意义取代。
      其实要正确抓住介词意思也不无可能。鲁孝贤在《机器翻译语义排歧的方法》里举with为例,说明了基于词典的词义排歧。根据该介词于上下文相邻词定义间的相似度选择相似度较高的义项,准确率就会比较高,如by之后是交通工具时取“乘坐”之意。至于该法由于计算机可读词典中每个词的定义通常太短,无法为词义排歧提供足够的信息资源这一主要缺点,可以辅以“基于共现特征的词义排歧方法”,如read through翻译为“通读”或“从头至尾看过”。
      3.4在线翻译网站对语用分析处理的对比
      以drive a nail home为例,牛津双解言及drive作为动词的第一词条中第二义项为take(sb)somewhere in a car,taxi,etc.(用汽车、计程车等送(某人)至某处),因此drive sb.home可为“开车送某人回家”。在第九词条(习语)中又有drive sth.home(to sb.)――make sb.realize sth.,esp by saying it often,loudly, angrily,etc.使某人充分认识或理解某事物(尤指经常地、大声地、愤怒地说),例如:I drove home to him that he must be here by ten.(我跟他说得清清楚楚:他必须十点钟以前到这里)。再看看在线翻译网络对drive a nail home的翻译结果:华建使用第一义项,翻译为“开车送一根钉子回家”;金桥用了习语的涵义――把一个钉子彻底讲清楚。这两种译文虽然不对,至少选择了基于共现特征的词义排歧,只不过没有考虑到nail的语用范畴。不似雅虎翻译为“驾驶钉子家”。
      drive作为动词的第五词条第一义项为force(sth.)to go in a specified direction or into a specified position迫使(某物)移动或进入某位置;打;敲;击;戳;钉。如:drive a nail into wood(把钉子钉入木中);drive a stake into the ground(把桩打进地里)。drive a nail home应该使用这一定义,即“钉钉子”。home在该短语中肯定为副词,其作为副词在第二词条的释义为to the point aimed at/as far as possible,即“正中目标”或者“尽可能地”。应对这类包含三个或三个以上多义词并涉及语用的语料,应先抓住重点分层剥落各种干扰项。仍以drive a nail home为例。建议排歧步骤为:
      (1)搜索固定搭配。一般先从习语入手,排除“把一个钉子彻底讲清楚”的译文,因为drive sth. home(to sb.)中的sth.只能是viewpoint/matter/reason等表示观点、事实和原因的名词或者以 that/what引导的从句。
      (2)从基于共现特征的drive...home(开车送……回家/驱使……回家)入手,排除非生物名词作为该词组宾语的可能性。
      (3)使用基于词典的词义排歧方法。drive和home都可以是电脑用语,位置相邻,定义间有相似之处,表示“驱动”和“首页/主页”,这就是为什么谷歌和看世界把该短语翻译为“驱动指甲主页”和“驱动器指甲首页”的原因。但是nail无论作为“钉子”或“指甲”,仍然不可适用这一释义。况且之前有限定词a,而nail的首字母亦非大写,不可能是某特定网站名称。所以再排除“驱动……首页/主页”的释义。
      (4)再次使用基于词典的词义排歧方法,这次根据drive与nail的相似度,找出drive作为“钉”的涵义和nail作为“钉子”的义项重新组合。
      (5)选择home用以表示程度的涵义as far as possible,译为“到头儿/到底”,则drive a nail home释义了然。
      回顾六个在线翻译网站的译文,金桥在第一步骤停止排歧,华建和译星在第二步骤停止排歧,谷歌和看世界止于第三步骤,而雅虎只选择基本义拼凑出译文,最不符合智能翻译的要求。当然,我们也不排除谷歌和看世界不使用排歧方法、将drive和home在当今网络信息时代最常用的意义设为基本义、直接取用的可能性,因为译文中的nail不作“钉子”而仅作“指甲”解释并非排歧结果,查询谷歌和看世界的在线词典即可知道,nail只有一个义项――指甲,所以drive和home无可选择地被翻译为“驱动”和“主页”也可能不是智能化的结果了。
      4.总结
      机器翻译是当代科技十大难题之一,而语义排歧又是机器翻译中的重中之重、难中之难。每个多义词的词义变化规律各不相同,所以研究语义排歧只能从单词入手、因词而异地研究,不但要研究排歧方法和顺序,而且还要考虑到语用范畴,因此研究者必须充分运用缜密的逻辑思维和大量的时间、人力与精力,要让机器智能化,只能让人先机器化。尽管困难如此,现在的CAT(Computer Aided Translation,计算机辅助翻译)已经可以运用翻译记忆技术(Translation Memory Technology)在翻译的同时建立语言数据库,智能化地利用自动记忆和搜索机制。国内的雅信和文婕就是两款比较成熟的CAT软件。而本文所对比的六个在线翻译网站中的中科院华建也正从事CAT软件开发,所以较之其他在线翻译网站的水平为高。对比之下,其他五个翻译网站也有其可圈可点之处,但却时常出现词义不足、排歧方法不成熟和句子结构处理手法滞涩等问题,虽说免费在线翻译网站属于大众化的便捷使用工具,但也要多多引入权威词典的义项和例句,继续改进排歧方法,建立记忆库和搜索机制,让使用者有更多的选择决定自己需要的译文,这样才能避免众多的误导和错译。
      
      参考文献:
      [1]鲁孝贤.机器翻译语义排歧的方法[J].中国科技翻译,2007,(4).
      [2]樊军.人、机器和翻译CAT神话中的雅信与文婕[J].宜宾学院学报,2006,(5).
      [3]华建.http://www.省略/.
      [4]谷歌.http://www.省略/language_tools?hl=zh-CN.
      [5]雅虎.省略.省略/translate_txt.
      [6]华译.http://www.省略/.
      [7]金桥.省略at.net/.
      [8]译星. http://www. transtar. com. cn / cn / transtech / transonline.asp.

    推荐访问:在线翻译 质量 英译汉 网站

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章