第3章 系统功能语言学在语篇生成系统中的知识表示方法

第3章 系统功能语言学在语篇生成系统中的知识表示方法

“自然语言生成”又称为“语篇生成”,指计算机通过自然语言文本来表达人们的意图和思想。而“语篇生成系统”是相应的计算机软件系统,它能够自动地生成可以理解的自然语言文本(张建华、陈家俊,2006)。

自然语言生成是一个跨学科研究领域,离不开语言学理论的支撑。从20世纪60年代开始,系统功能语言学就开始应用于自然语言生成的研究。进入70年代之后,它在一大批语言生成系统中得以实际采用,例如PROTEUS(Davey,1974,1978)、PENMAN、SLANG(Patten,1986)、GENESYS(Fawcett和Tucker,1990)、WAG(O'Donnell,1994)、汉语句法实现系统(Chinese Syntactic Realization System,以下简称为CSRS)(吴华,2001),等等。目前,它已经成为该领域中应用最为广泛的语言学理论(邵军力、张景、魏长华,2003:251;Reiter和Dale,2010)。

另一方面,自然语言生成对于系统功能语言学理论本身的可计算性提出了更高的要求。从计算语言学的角度来看,语言学理论必须进行形式化的处理,即通过数理逻辑的方法和手段对原来的理论体系结构进行更加严密和明晰的表征。只有这样,才能够进一步使编制的程序在计算机上得以实现(靳光瑾,2001:1)。同时,人们在设计自然语言生成系统的过程中也开始认识到不能一成不变地照搬Halliday的系统功能语言学理论框架(Clippinger,1978)。

本章将选择PROTEUS、PENMAN、CSRS三个具有代表性的英、汉语篇生成系统。通过研究它们的设计流程,试图从中归纳和总结出系统功能语言学在语篇生成系统中常用的、基本的知识表示方法。此后,进一步研究该表示方法在应用过程中所出现的“组合沟”现象。