1.2.1 国外研究现状
在这个部分,我们有必要先勾勒出计算语言学的发展概貌,然后进一步梳理系统功能语言学在自然语言处理中的应用历程。
1.2.1.1 计算语言学的发展概貌
计算语言学的发展大致分为三个主要的时期(冯志伟,2011b):
(1)萌芽期(从20世纪40年代至50年代末)。在萌芽期,一般认为最重要的四项理论成果分别为Markov的马尔可夫模型、Turing的算法计算模型、Claude Elwood Shannon的概率和信息论模型、Avram Noam Chomsky的形式语言理论。他们的工作为计算语言学的诞生与发展奠定了坚实的理论与技术基础。
在此期间,最引人注目的应用领域是机器翻译。1954年,IBM在全世界首次采用计算机进行了第一次机器翻译实验,紧接着苏联、英国和日本等国也进行了类似机器翻译实验,出现了一股机器翻译的热潮。然而,机器翻译不久就遇到了难以克服的语义障碍(Semantic Barrier)。随着ALPAC报告的发表,机器翻译在全世界范围内的热潮顿时消失了,呈现出了一片萧条的局面。
(2)发展期(从20世纪60年代中期至80年代末)。在发展期的研究中出现了两种重要的趋势:一是重新评价了有限状态模型,并成功地将其应用于音系学、形态学和句法学的研究之中;二是重拾了经验主义的研究方法。这种方法的理论基础是信息论,它将语言事件赋予概率。研究者们认为人的知识通过感官输入,经过一些简单的联想与通用化的操作而获得。因此,他们认为计算语言学的研究对象是实际的语言数据,并从大量的语言数据中获得语言知识。显然,这种主张是对Chomsky理性主义的一种反叛,即语言知识是与生俱来的,自然语言处理主要研究的是人们的语言知识结构。
在此期间,计算语言学在诸多领域取得了令人振奋的成绩,例如语音识别、机器翻译、话语分析等。但是,最引人注目的是自然语言理解,尤其是自然语言生成。1972年,Terry Winograd首次采用了Halliday的系统语法建立了一个SHRDULE系统:它可以接受自然语言的书面指令,并指挥机器人摆弄不同颜色的积木。自此,系统语法正式进入计算语言学的实际应用领域。
有必要指出的是,这个时期所应用的语言学理论打破了生成语法一家独大的局面。除了系统功能语言学,比较著名的还有词汇功能语法、格语法、变形语法等。它们均在计算语言学的不同应用领域中得到了比较广泛的应用与发展。
(3)繁荣期(从20世纪90年代至今)。计算语言学进入繁荣期的一个重要标志是语料库语言学的兴起。自此,计算语言学研究出现了一个战略转移:传统的研究往往局限于一些十分狭窄的专业研究领域,所采用的主流技术是基于规则的句法-语义分析。尽管相关的一些应用系统在一些受限的子语言中能够取得成功,但是要进一步泛化从而处理更多的语言知识则十分困难。然而,语料库的建构与研究则为大规模知识文本的处理提供了必要的理论、方法和工具。它开始深刻地影响了一大批的应用领域,例如机器翻译、自然语言生成等。因此,语料库语言学中所推崇的基于概率和数据驱动的方法开始成为计算语言学的标准研究方法。
与此同时,计算语言学极大地扩展了其应用领域,例如问答系统、自动文摘、术语抽取和自动索引等。并出现了商品化的趋势。例如,自然语言生成技术开始应用于旅游景区的自动导游,语音合成、语音识别和文字识别技术开始应用于移动通信等。
目前,计算语言学的一个研究热点是互联网所构成的一个多语言世界(李思舒,2012)。这个世界中的数据是海量资料即大数据,它具有大量、高速、多样和价值等四大特点(詹卫东,2013;梅德明,2014)。因此,如何加强数据处理能力,开展相关的机器翻译、信息检索和抽取、多模态语料库等方面的研究就成为计算语言学中一个亟待解决的重要课题。
1.2.1.2 系统功能语言学在计算语言学中的应用历程
系统功能语言学是一门以Halliday为主创立的语言学理论,它的发展可以分为三个主要的阶段:阶与范畴语法阶段(从20世纪50至60年代)、系统语法阶段(从20世纪70至80年代)和系统功能语言学阶段(从20世纪90年代至今)。近年来,系统功能语言学的研究中出现了一种将语言视为社会符号的新趋势(黄国文,2000;张德禄,2004)。
有必要指出的是,系统功能语言学自创立之日起就开始积极地应用于计算语言学,并在应用的过程中不断得到发展和完善。相应地,这个应用过程也可以大致地划分为三个主要的阶段:
(1)阶与范畴语法阶段(从20世纪50至60年代)。一般认为,Halliday的阶与范畴语法正式定型于1961年发表的《语法理论范畴》(胡壮麟、朱永生、张德禄,1989:27)。他在此前后,即1956年和1961年就应用“阶”与“范畴”的基本观点对机器翻译和机器词典的语言学原理进行了初步的探索。并且,针对机器翻译中对等翻译缺失的情况提出了“同义词词库法”(Halliday和Webster,2007:6-41),该方法在一个由Margaret Masterman(1954)领导的项目组内得以应用与检验。
尽管Halliday在当时的影响力十分有限,但是这些研究可以视为系统功能语言学在计算语言学中的初步应用,从而拉开了系统功能语言学理论本身形式化研究的序幕。
(2)系统语法阶段(从20世纪70至80年代)。在20世纪60年代,Henrici,A.基于Halliday的系统思想开发了一个计算机程序,它能够对一个系统网络中的不同选项进行自动选择。这展示了系统功能语言学具有形式化的可能性,为其在自然语言处理中的实际应用奠定了基础(Matthiessen和Bateman,1991:18)。
1972年,Winograd,T.研制了一个自然语言处理系统——SHRDULE。在这个系统中,他首次采用Halliday的系统语法建立了一个比较全面的英语语法。自此,许多自然语言生成研究者转而采用系统功能语言学作为理论基础,改变了原来仅关注转换生成语法的状况(Matthiessen和Bateman,1991:18)。
在后续的20年中,一系列基于系统功能语言学的语篇生成系统应运而生。比较著名的有PROTEUS、PENMAN、SLANG、COMMUNAL等。至今为止,系统功能语言学已经成为语篇生成系统中应用最为广泛的语言学理论。
通过在自然语言生成中的广泛应用,系统功能语言学论证了自身的科学性,成为一门广受欢迎的语言学理论。与此同时,相关的形式化研究空前活跃起来,吸引了语言学界、数理逻辑界、计算机界等不同领域的专家学者开展相关的研究工作。
(3)系统功能语言学阶段(从20世纪90年代至今)。进入20世纪90年代以后,基于大规模语料库的自然语言处理思潮开始兴起。与之相适应,系统功能语言学被积极地应用于语料库语言学的研究以及各类语料库的建构,其最终目的仍然是服务于自然语言处理的需要。
在此期间,Halliday(Halliday和Webster,2007:157-189)展开了对口语语料库的研究。Bateman,J.(2008)、Baldry,A.Thibault,Paul J.(2010)等进一步研究了多模态语料库的建构,成为系统功能语言学在当代自然语言处理应用研究中的一个重要动态与发展趋势。
另值一提的是,人工神经网络研究在20世纪80年代开始复兴,并与遗传算法、模糊逻辑结合起来,构成了人工智能中一个充满活力、极具挑战性的研究领域——智能计算(Intelligent Computing):它不仅仅是一种计算机技术的革新,而且标志着人工智能研究已经从传统的物理符号系统进入了联结主义研究范式(段海滨、张详银、徐春芳,2011)。
对于这一重大变化,Halliday作出了积极的响应:从系统功能语言学的角度探讨了语言的模糊性,并初步论述了系统功能语言学在智能计算中的应用前景(Halliday和Webster,2007:193-267;杨才英,2007)。
总之,系统功能语言学在上述三个阶段主要应用于机器翻译和机器词典、自然语言生成和(多模态)语料库。而这些应用领域与计算语言学本身的发展趋势基本一致。
至此,我们可以下一个初步的结论:
系统功能语言学的一个重要应用领域是计算语言学。而在计算语言学中的应用反过来深刻地影响了系统功能语言学的发展轨迹,并推动了其自身的理论建设,尤其是相关的形式化研究的开展。