1.2.2 国内研究现状
1.2.2.1 中文信息处理概况
中国计算语言学研究的主线是中文信息处理,又称为汉语信息处理。它发轫于中华人民共和国成立初期的汉语现代化改革,大致可以分为三个主要的阶段(宗成庆、曹右琦、俞士汶,2009;张普,2009):
(1)起步阶段(从1949年至1966年)。中文信息处理起步于机器翻译的研究。1956年,我国就将机器翻译研究列入了《1956—1967年科学技术发展远景规划》。1957年,机器翻译研究工作正式启动。1959年,首次成功地进行了俄汉机器翻译。1958年至1960年,又成功研制了一套英汉机器翻译规则系统。1966年开始,机器翻译研究工作由于“文革”的干扰而处于停顿的状态。
(2)重振阶段(从“文革”后期至1981年)。中文信息处理所面临的一个特殊任务是将汉字输入计算机。1973年,我国“四机部”就提出了一个“关于研制汉字信息处理系统工程”(简称“748工程”)的报告,并组织一批专家着手汉字计算机处理的研究工作。“748工程”的三个项目之一为汉字精密照排,其负责人为王选院士。正是通过这个研究项目,汉字进入了计算机,并使中国平面媒体印刷告别了铅字印刷的时代。
(3)大发展阶段(从20世纪80年代中期至90年代中期)。直至汉字进入计算机这个巨大难题成功攻克之后,中文信息处理才开始从文字处理阶段真正进入了语言信息处理的阶段。令人遗憾的是,中国的语言文字理论研究与信息技术处理之间的关系远不如国外那样紧密。因此,中文信息处理研究迫切需要上一堂“补习课”,即建立面向汉语自然语言处理的语言学理论和方法论体系。
至今为止,国内学术界的一个基本应对策略是重视语义研究,以句为突破单位将词义与句法规则结合起来。在此基础上,形成了如下三个流派:
(1)第一个流派是以传统计算语言学为理论框架,从词素入手,进而研究更上一层的单位:词→短语→语段→句子。代表人物为许嘉璐及其所领导的课题组(许嘉璐,2001)。
(2)第二个流派是HNC理论即概念层次网络理论,其代表人物为黄曾阳(1997)。该理论一个核心的观点是传统的“词→短语→句→句群→篇章”的研究路线比较适合于西方语言,然而在总体上与汉语实际不相吻合。
(3)第三个流派是陆汝占的基于内涵模型论的语义分析。其重要思想是中文信息处理的研究单纯走语法的路子已难有突破,必须充分考虑汉语表达式的内涵性质(陆汝占、靳光瑾,2004)。
与此同时,另一个研究热点是建立各种综合性的语言知识库。例如董振东提出的知网(董振东、董强、郝长伶,2007),由中科院、清华大学、教育部语用所发起成立的中文语言数据联盟等。
总而言之,中国的计算语言学研究具有两个鲜明的特点:一是花费了巨大的人力、物力才成功地解决了汉字进入计算机的问题,而这对于西方语言来说是不成为问题的问题;二是由于汉语本身的复杂性以及汉语界与计算机界之间的“不相往来”,缺乏直接或经过适当改造就可以应用于中文信息处理的语言学理论和方法。
不得不提的是,国内的汉学界对于西方语言学理论(包括系统功能语言学,尤其是20世纪80年代之后提出的一些语法理论)持冷淡态度。一个重要的缘由就是认为汉语是一门特殊的语法,有着与西方语言非常不同的特殊性(周上之,2012)。然而,这种局面不利于实现汉语语言学界与外语语言学界,尤其是计算界之间的交叉融合。从这个意义上说,中国的计算语言学研究在整体上与国外存在较大的差距,尤其是在与系统功能语言学的交叉研究方面缺乏原创性的成果。
1.2.2.2 面向中文信息处理的系统功能语言学研究概况
自20世纪80年代系统功能语言学引介到中国以后,外语界就已注意到它在机器翻译方面的应用(胡壮麟、朱永生、张德禄,1989:189-190)。林允清(2010)介绍了Fawcett的语篇生成系统——GENESYS。此外,杨才英(2007)对Halliday的语义计算模型进行了评析。近年来,李学宁等(李学宁、马利霞,2010;李学宁、张德禄,2012;李学宁、董剑桥,2012;李学宁、李向明,2014)比较系统地评述了系统功能语言学在自然语言处理中的应用历程。
在计算机科学界,冯志伟(2010)述评了系统功能语言学的形式模型及其在自然语言处理中的应用。邵军力等(2000)则重点介绍了系统功能语言学在自然语言生成中的应用情况,并举例说明了它在图书馆资料查询系统中的应用。
目前,一批具有语言学和计算机科学双重学术背景的学者已经开始运用系统功能语言学进行具体的自然语言处理研究工作。曹文洁、宗成庆和徐波(2004)建立了一个汉语语篇生成系统,吴华(2001)探讨了汉语自然语言生成的形式模型及其在自然语言处理中的应用。许庆欣(2007)研制了一个词汇语法拼写校对软件。严恒斌和J.Webster(2011)提出了一个基于云计算平台的协作性标注框架。
从总体上来说,系统功能语言学在中文信息处理中的应用研究还相当零散、薄弱,主要集中在为数不多的几个汉语语篇生成系统的研制上。相关的理论研究,尤其是如何采用形式化和可计算的形式来表示系统功能语言学方面的研究在国内仍处于起步阶段。[3]