信息处理,重任在肩
世界正进入一个以互联网为特色的信息时代,一种语言能否最终生存并有美好的未来,在很大程度上要取决于它能否适应信息时代的要求,其语言文字都能实现高度的信息化处理。中文也不例外。中文在20世纪几度被判处死刑,原因之一就是因为怀疑它不能适应现代化科学技术的发展,先是打字机时代,后是电脑化时代(主要是中文输入问题),现又到了信息处理时代。每一阶段都有人(主要是“语言学家”们)跳出来,摆出一副语言文字专家的架势,无情地一次又一次判处汉语的死刑,其结论是汉语如不走拼音化道路就没有出路。然而历史也一次又一次嘲弄了他们,汉语和汉字都很快地适应了技术革新的发展,如果说在机械打字机阶段汉字打字机还比较笨重的话,在电脑输入阶段汉语很快后来居上,由于其经过了编码阶段,结果变不利为有利,不再需要像拼音文字那样非要逐字母输入,因而最终在总体输入的时间上超过了英语等拼音文字语言,给了汉字不能电脑化的语言专家们一个有力的回答!现在进入了信息处理阶段,尽管中文信息处理的问题还未完全解决,但我们有理由保持乐观,并对中文信息界寄以厚望。
所谓中文信息处理,就是利用计算机对中文信息进行全面的、自动化的处理。例如,成篇的文章或整本的书的输入;对其中所需要的信息进行统计;自动分类和检索;信息过滤和自动摘要;中文与外文的对译;字、词典的自动查询和辅助编辑;自动校对;书面语和口语的互相转换;聋哑人和盲人使用的基于中文的计算机;汉语语料库的建立和综合应用,等等。至于词典、教科书、多媒体和语文教学等领域从中得益则不言而喻。
到目前为止,中文信息处理基本上还停留在“字处理”阶段,也就是说计算机对汉语的“认知”是一个一个字地进行。最明显的标志就是计算机键盘输入还是一个一个字地敲,一个一个字地显示。而中文信息处理,只有进入到“语处理”(整句、整段、整篇地处理)阶段,才能真正实现自动化。二十年来,我国几代的计算机专家为能在计算机上显示汉字,曾经付出了极大的心血,实现了历史性的突破。自那以后,中文信息处理技术虽然在有些方面有所进步,但从整体上还没有跨进“语处理”这个台阶。
在全世界科学技术高速发展的今天,中文信息处理自动化水平的提高,将决定着信息产业发展的前景,也意味着巨大的经济利益;同时,对汉语、汉字特别是汉文化的生死存亡也将起到某种决定性的作用。中国作为汉语的故乡,能不能成为未来中文信息处理技术的发展的中坚?以汉语为母语的中国学者,能不能掌握中文信息处理的核心技术呢?
我国的有关科研单位和专家从来没有停止过攻克中文信息处理难关的努力。当前这类研究基本上都是在语料—主要是词—的统计概率的基础上进行的。许多专家已经感觉到,统计概率的路已经走到尽头,必须另辟蹊径,这“蹊径”就是语义,以语义为基础,与语形规则相结合,以汉语的句子为突破的单位。目前已经出现了好几种理论,值得注意的是以下三派:第一派以传统计算语言学为基本理论,从词素分析入手,进而研究词—短语—语段—句子;第二派出于对传统研究方法(词→短语→句→句群→篇章)基于西方语言,从总体上与汉语不相适应的考虑,提出概念层次网络理论(HNC),其代表是黄曾阳先生;第三派基于内涵模型论的语义分析,其出发点认为中文信息处理的研究单纯走语法之路已经难以有突破性结果,归根结底须深入到语义层面,其代表是陆汝占先生。这三派的研究都正在进行中,进展情况不一。第一派的不同单位和个人已经在一些局部取得了较好的成绩,目前面临的是如何集成和如何解决词义、句子问题;第二派设想和计划比较庞大,在规模不够大的知识库内,已经得到部分技术实现,面临着继续扩大知识库、进行相当于“中试”或一定规模生产的过程,以便检验和完善其理论和技术设计;第三派的理论设计还较粗略,虽然用这一理论已经解决了一些实用问题,但是要证明它可以适用于整个现代汉语,还需要进一步推敲、实验、细化。
值得注意的是,第二、第三派的思路都很重视我国传统语言学,特别是训诂学的经验和成果,或从中得到启发,或借用其对词语的训释,这是有道理的。我国的传统语言学对语言的体味观察细致,其中包含着一定的哲理和对语境的关心,这些往往反而是不“懂”语言的计算机所需要的。但是,由于汉语本质上是语义型语言,缺乏狭义的形态,没有形式标记,增加了计算机分辨“语素”、“词”、“词组”的难度,使得西方计算语言学一些成果和经验不能完全用得上;另一方面,汉语语法、语义的灵活也给中文信息处理带来很大的困难。面对这样的情况,一些科学家开始另辟蹊径,特别是考虑到汉语的文字和音节是封闭的这一西方语言所没有的特色,这就在另一方面降低了计算机文字处理的难度。著名计算机专家、清华大学教授、微软亚洲研究院研究员黄昌宁教授据此提出了基于“字本位”的由字到词的自动分词新方法。计算机专家鲁川更提出了汉语语义网络的汉语研究全新思路。
上面最后提到的一位专家本是研究计算机的,但出于对当前汉语理论研究成果完全无助于解决中文信息处理的现实,发奋投入汉语自身的研究,十余年来取得了令人瞩目的成绩。这说明,要最终消除中文信息处理的瓶颈,必须要实现汉语学界和计算机学界两支队伍的结合,现在,北京大学、清华大学、上海交大、山西大学、科学院的一些研究所已经开始了这种结合,而且在实际研究、培养新型人才、探索新的研究路数诸方面都取得了一些成绩。目前看来,汉语学者尤其需要认识到以往的不足,改变观念,改变固有的研究方法和思路。对于许多汉语研究者来说,最需要改变的是一种在科学面前无所作为的科学迷信观念,必须明白,科学技术再发展,毕竟是人创造的,只有让科学技术去适应人,不可能让人去适应科学技术。在以往数十年的科学技术发展中,某些语言学家扮演了不光彩的“唱衰派”角色,每当一种新技术出现,他们不是去考虑如何让这种新技术为汉语服务,而是立即悲叹起汉语落后,适应不了新时代,鼓吹汉语只有改为拼音文字,才有出路;甚至板起一副先知先觉的面孔,一本正经地要人家做选择题:要么就是汉字灭亡,要么就是中国灭亡,似乎不可能有第三种选择。新技术的出现往往只是为他们提供“汉字拼音化”的又一佐证,而在真正的汉语汉字现代化或科学化上,他们几乎无所作为,诸如上面提到的汉字打字机、汉字电脑输入等,都是科学家们在没有语言学家参与,甚至在语言学家的冷嘲热讽中取得的成绩(也许林语堂的打字机试验是个例外)。今天的中文信息处理为汉语汉字的发展提出了又一个课题,但如果继续原来的唱衰派态度,甚至借机又祭起“汉语拼音化”的法宝,那么将来中文信息处理的成功历史上,又不会记有他们的功劳。信息处理,理想的当然是中文信息处理界和汉语汉字学界的合作,但语言学界以前的表现太令人失望了。如果不打算改弦更张,将来恐怕还是很难有所作为。