2.1.3 基于语料库的机器翻译系统设想
1990年前后,机器翻译迎来了新纪元。一个重要的标志是在基于规则的技术中引入了语料库方法,主要包括基于实例的方法和基于统计的方法(Somers,2009)。
(1)基于实例的方法。这种方法的核心思想是利用已有译文的例子作为翻译的基础。它与一种翻译助手——“翻译记忆”非常类似,都是将新输入的句子与真实文本数据库中的例子进行匹配,从而自动或半自动地确定最合适的译文。
一般认为这种方法最早由Nagao(1984:173-180)于20世纪80年代提出。然而,Halliday早在二十多年前就从语言学的角度提出了一些初步的设想,涉及了翻译的单位以及词汇-语法分析等一系列重要课题(Halliday和Webster,2007:29-30)。
Halliday认为机器翻译的理想单位应该是在句这个阶层。通过一部“句典”,就可以在目标语言中查找到与源语言中所有句子相对应的译文。然而,当时的机器翻译大多在词甚至词素这些阶层上进行,翻译的质量往往令人难以接受。
与此同时,Halliday已经认识到了这种方法存在的局限性。除了在特定文本中具有较高的重复率以外,普通文本的实际重复率是非常低的。因此,他明确提出在科技语篇和其他一些重要语域的语篇中,词汇-语法完全一致的句子的重复率几乎为零。今天,这个结论已经得到了进一步的证实:Masterin公司对10 000条芬兰新闻句子进行了统计分析,发现重复率只有1%。
Halliday提出的解决方案是词汇分析与语法分析先独立进行,然后有机地结合起来。试以句a的翻译为例(Sato和Nagao,1990:247-252)。通过词汇分析,可以发现句c与句a、句b中部分词汇重复,在此基础上找到平行的日语译文。结合对“He buys”和“a book on international politics”的语法结构分析,就能正确地合成句c的译文。
a.He buys a notebook.
Kare wa noto a kau.
b.I read a book on international politics.
Watashi wa kokusai seiji nitsuite kakareta hon o yomu.
c.He buys a book on international politics.
Kare ha kokusaiseiji nitsuite kakareta hon wo kau.
在此,有必要指出的是:Halliday虽然较早地提出了这个观点,但是一般学界认为这种方法的创始人仍然为Nagao,因为他能够进一步采用计算机技术的手段加以实现。我们来看下面的翻译:
He eats vegetables.
kare ha yasai wo taberu.
采用Prolog语法,有关程序编写如下:
通过这种方法,就可以有效地基于实例a和b实现c的自动翻译。因此,语言理论、翻译方法只有与计算机结合起来,才能在机器翻译中发挥重要作用(Quah,2008)。
(2)基于统计的方法。这种方法的本质是基于平行文本,计算一种语言中的某个语言单位与另外一种语言中对应语言单位之间的概率。
在Halliday的机器翻译研究中,概率统计是一个重要的思想。他认为如果期待计算机进行机器翻译工作,就必须为之提供既精确、又有效的描写。鉴于当时还缺乏任何两种语言之间的全面对比分析,他主张先开展前期工作,分别对相关语言进行定量研究(Halliday和Webster,2007:23)。与此同时,他对于当时一些纯粹的单词统计、词表统计等方面的研究提出了批评。他认为如果缺乏语言学理论的支撑,从定性研究向定量研究的转变是没有多大价值的,有关研究结果也难以得到机器翻译工作者的肯定和重视(ibid.:26)。
在语法统计分析方面,Halliday的具体做法是:①基于级阶理论,在概率统计的基础上确定源语和目标语相对应的单位,例如源语中的短语一般翻译为目标语的短语。②然后,进一步研究该单位的类型及其所体现的语言成分的对应概率。例如,源语中的动词短语是否译为目标语的动词短语?源语中体现动词短语的成分是否总能译为目标语中体现动词词组的成分(ibid.:27-28)。
Halliday在词汇定量研究方面也具有真知灼见。他认为仅仅统计词类出现频率和组合规律是不够的,还需要统计词汇的搭配。而后者往往没有引起足够的重视。此外,他进一步提出了一种大胆的设想:基于语法和词汇的统计分析,研究语言形式的语境意义及其出现频率(ibid.:32-33)。
目前,基于统计的方法已经成为机器翻译的主流方法(Koehn,2012)。我们比较如下三种译文:
表2.1 译文质量对比(引自詹卫东,2013:73)
其中,MT1和MT2分别为国外和国内基于规则的机器翻译系统的作品,而MT3是基于统计的机译系统的作品。显然,MT3的表现更胜一筹。
今天看来,Halliday的机器翻译研究对于翻译学的建立也具有一定的启示作用。首先,他的研究不是局限于译本主观性评价,而是更多地关注翻译过程的研究。第二,他在借鉴其他学科的时候,不是生搬硬套,而是提出了自己独特的见解。第三,他是从一个科学化、系统化的轨道来考察机器翻译,并思考(机器)翻译的学科归属。而这些是建立翻译学的重要出路(崔校平、刘振前,2003:110)。