1.1.1 研究背景
近现代西方语言学史上有两个重要的里程碑。
第一个是《普通语言学教程》的出版,标志着语言研究在性质上已经完全实现了从传统语法、历史语言学到现代语言学的嬗变。在该书中,Ferdinand de Saussure提出了一系列创新性的概念、分析方法和基本原则,对20世纪的布拉格学派、哥本哈根学派、美国结构主义学派、转换生成语法和伦敦学派等均产生了深远的影响(Matthiessen和Bateman,1991:77-78;张同俊,2010)。
另一个分水岭是计算机的诞生,它标志着语言的研究已经正式进入了一个以定量和可计算性为主要特征的电子时代(戴炜栋、张爱玲,1999):
(1)语言学和数学之间具有紧密的关系。Saussure本人就指出语言之间的数量关系可以用数学公式表示出来;而语言系统就好比是一个几何系统,它可以归结为一些有待证明的定理。1933年,美国语言学家Leonard Bloomfield就提出数学不过是语言所能达到的最高境界。在1945年之前,许多数学家如英国的A.de Morgan、美国的T.C.Mendenhall、加拿大的E.Varder Beke、中国的陈鹤琴,尤其是俄国的Markov,Andrei Andreevich等用数学方法对语言进行了实际的研究,并推出了一批重要的成果。然而,这些工作对于当时的语言学研究并没有产生显著的影响。绝大部分语言工作者仍孤立于数学之外,沿着自己的传统道路迟缓地发展着(冯志伟,2011a:1-2)。
(2)早在计算机诞生之前,英国数学家A.M.Turing就天才地预言了计算机与自然语言之间的紧密联系:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后,教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种方法来进行(冯志伟,2010:10)。”
(3)自计算机诞生以后,在一大批语言学家、数学家、计算机专家等不同领域学者的共同努力下,产生了两门新兴的前沿交叉学科——计算语言学(Computational Linguistics)和人工智能(Artificial Intelligence,AI)。计算语言学通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以计算机来模拟人的全部或者部分语言能力的目的(俞士汶,2003:2)。而人工智能则试图了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器。其主要研究领域有机器人、语音识别、图像识别、自然语言处理和专家系统等。
显然,这两门学科都具有一个共同的研究方向和领域——自然语言处理(Natural Language Processing,NLP),[1]它的研究对象是自然语言,即人们在日常工作和生活中所使用的语言,其最终目的是为了实现人与计算机之间的自然语言通信,因此归属于计算机科学。经过几十年的发展,它形成了自然语言理解(Natural Language Understanding)和自然语言生成(Natural Language Generation)两大分支。前者指的是计算机理解自然语言文本的意义,后者指计算机以自然语言文本来表达给定的意图和思想。两者共同构成了人、机自然语言通信的一个完整过程。因此,我们在涉及自然语言处理的研究中,往往对计算语言学和人工智能两门学科不加以严格的区分。在更多的时候,我们将使用“计算语言学”这一术语。
在此背景下,语言学理论,尤其是试图应用于自然语言处理的语言学理论面临一个共同的问题:语言学知识一般是通过自然语言形式,即人们日常所使用的语言进行阐述;而这不能为计算机所直接识别和处理。因此,我们有必要采用一定的形式将这些知识表示出来。这样一来,“知识表示”(Knowledge Representation)就成为语言学和计算机科学共同关注的前沿课题。