信息化:真正的冲击

二、信息化:真正的冲击

如上所说,真正对中文乃至汉语形成冲击的是互联网的发展和信息化时代的到来。为什么我们这里特别把中文(书面语)和汉语(口语)分开来说呢?因为互联网的发展,首先受到冲击的是书面语,如果语音、文字(我们可以用更科学的术语说是空气中的声波和纸上的物理划迹)是语言的两种载体或存在形态的话,那么,电脑上用光电显示的文字实际上可说是语言存在的第三种形态。从口语到书面语是科学技术、也是文明的一大进步。那些不能适应这一进步、也就是没有进化到采用文字形式的语言慢慢就落伍了,许多语言就此消失在历史中。那些幸存到今天的语言也正在被人们遗忘,慢慢进入历史。除了有特殊研究需要(如人类学的考察等)以外一般不会引起人们兴趣。从书面语进入到光电语可以说是科学技术或文明的又一次进步,电子作为载体比起纸质载体来有很多优点,如更便于保存、传播更快、信息量可以浓缩,还能结合声音图像等。当然,它能否完全取代纸质材料目前还有争论,但是作为一场信息载体革命,其意义是不容低估的。能不能进入电脑、能不能用计算机进行处理,可说是对世界上所有现存语言的又一场严峻考验。适者生存的自然规律是难以违背的。可以说,不能进入电脑、不能用计算机处理的语言就没有未来。这个话说得有点危言耸听,因此我们要分两步说。第一步受到冲击的是中文或者说汉语的书面语,如果我们不能把现有的书面记载的文字输入电脑并用计算机来处理,中文就没有未来。尽管这时汉语由于它数量庞大的人口基数,当然不会马上消失,但由于进入不了计算机在将来就等于退出了“流通领域”,它的使用就会非常受局限,以致在某种程度上可以类比于当今那些没有书面形式和文字载体的语言。到第二步进入历史也是迟早的事。这是对全世界所有现存语言的共同威胁,并不是特别针对汉语的。只是汉语不能因其人口基数庞大、历史悠久和文献丰富而掉以轻心而已。

科学技术的发展对语言特别是汉语汉字造成冲击这已不是第一次。就这100多年来已发生了三次。第一次是19世纪末随着坚船利炮和先进的西方科技,“量少形简,易学便用”的西方拼音文字进入中国,挑战着古老的汉字。第二次是20世纪上半叶,机械打字技术传入中国,汉字面临着被工业化科学技术抛弃的危险。第三次即是电脑世纪的来临,再一次威胁着汉语汉字的生存。

中文信息处理的困难是由中西语言不同的本质造成的。以英语为代表的西方语言基本上是采用拉丁字母的拼音语言,字母的数量有限,以有限的键盘按键数量就可以实现文字的快速处理。而汉语是以汉字为基本语言单位和书写单位的语言,汉字数量庞大,仅常用字就有几千个,古今繁简汉字加在一起,其总数超过9万。汉字的数量如此庞大,不可能实现字和键盘按键的一一对应,造成信息录入上的困难。汉字与拼音文字的这一与生俱来的巨大差异曾被看作是不可逾越的困难。

面临这种威胁有两种态度,一种可以叫削足适履,一种叫改履适足。从前有个故事,一人买了一双鞋子,回来一试,太小了,脚塞不进去,他拔出刀来把脚趾削去了一半,正好可以塞进去,于是他就得意洋洋地穿着一边还在流着血的新鞋子出去了。这就叫削足适履。另一种改履适足的办法不是削足,而是改鞋子,或是放大,或是缩小,使它正好适合脚的大小。实际生活中,削足适履的蠢人当然是没有的。但是在人与技术发生激烈冲突时,是改造人以适应技术、还是改造技术使之适应人,事实上就是削足还是改履的争论。在新技术与汉字的问题上,“削足”就是改造汉字,改履就是改进技术。100多年来,我们就是有那么一批顽固的人,坚持要走削足之路,也就是把汉字改造成与西方一样的拼音文字来适应键盘的需要。文字改革的最早呼声正是在汉字受到第一次冲击的时候提出来的,在受到第二次冲击的时候又被提了出来。幸好,一批不相信削足的科学家经过艰苦的努力,终于发明了中文打字机,尽管步履艰难,还要配备数千个铅字组成的大字盘,昂贵的机器成本和复杂的使用技术使其无法在大众中得到普及,但至少暂时缓解了汉字“不适应现代文明”的指责。

第三次冲击来得更强烈。那些坚持要削足的人找到了更坚强的理由,又一次祭起了汉字拼音化的大旗,甚至将此与语文现代化等同起来。1980年全国高等院校文字改革学会编辑出版不定期丛刊《语文现代化》,其《发刊词》上就说:“文字改革就是语文现代化。也可以说,文字改革的最终目的是语文现代化,语文现代化的首要工作是文字改革。”

在迅猛发展的现代科技面前,汉字还要不要?这是关系到中文存亡的大问题。中文危机,莫此为甚!以许多语言学家为代表的一方(往往也是不承认汉语有危机的一些人,甚至乐观地感到汉字改成了拼音也还是中文)坚持要削足,而以许多计算机专家为代表的另外一方(他们深深地感受到了中文所受到的压力和威胁)则顽强地走着改履的道路,试验、失败、再试验,直至成功。正是靠着后一批人三十多年的不懈努力,我国的中文信息处理技术取得了许多突破和进展,开发出了多种汉字处理设备和系统,汉字信息处理的研究成果日趋成熟,汉字信息处理技术上的难题基本得到解决,汉语终于迈进了信息化的时代。汉字拼音化的呼声又一次被压了下去。

但是中文的危机依然存在。因为有那么一批人习惯于一看到某种新技术发明,马上就会联想到要改革汉字。既然新技术的发明日新月异,什么时候出现比现在的计算机还要先进的技术,并非是不可能的事,那么我们再一次听到有人站出来,义愤填膺地要消灭汉字,也就并非杞人忧天。这把达摩克利斯之剑可说始终悬在中文头上!

更何况,汉字处理技术虽然取得了巨大的成就,但也还存在着诸多的问题。比起拼音文字,确实还有些不尽如人意之处。例如:

1.如何实现汉字进入计算机的规范?汉字处理技术实现后,一时间出现了数以百计的汉字编码方案,人称“万码奔腾”。各种编码方案在对汉字的拆分、部件的选取和归类上,见仁见智、自成体系。有的编码方案从自己的需要出发,对汉字任意“肢解”,从而给计算机应用、语言文字规范、计算机教育和识字教育造成很大困难。汉字的笔画输入法在手机上应用得比较广泛。然而,同一个汉字在不同品牌甚至同一品牌不同型号的手机上采用笔画方式进行输入时,可能需要按照不同的笔顺输入才能成功,其中有些输入笔顺是不符合正常的汉字书写规范的。例如,“南”、“真”等字的第二笔应该是“ノ”(撇),但在很多手机的输入法中,第二笔输入“ノ”是无法找到这些字的,需要输入“丨”(竖)才行。这种不规范的汉字使用法已经造成了一些负面的影响。这种现象急需采取相应的措施予以规范。鼓吹拼音化的人又提出以拼音输入为唯一方案,但汉语拼音远非解决这一问题的良药,否则还用等到今天吗?

2.汉字字库应该有多大?拼音文字以字母对应键盘,可以说没有打不出来的字;而汉字是通过编码与字母实现对应的,只有编过码的汉字才能在电脑上显现,这种经计算机编过码的汉字集合就叫字库。字库该有多大?1988年,国家公布的《现代汉语常用字表》共选收了2500个常用字、1000个次常用字,总共只有3500字。而汉字的数量远远超过这一数字。《现代汉语词典》收录了12000个汉字,《康熙字典》收录汉字48000多个。而据最新的统计,目前所有汉字的总数已经突破9万。第一个国家标准的电脑汉字字库GB2312只有6763个字,这显然不能满足人们的需要。2001年新的国家标准字库GB18030收录了27000多个汉字,但在使用过程中发现这个字表还远不够用,要不断根据需要加以补充。例如,有报道说,近来全国正在开展集中换发第二代身份证的工作。在第二代身份证的换发过程中发现很多家长为了防止重名重姓,起名时故意给孩子用一些冷僻字。而第二代身份证的制作实行网络制证,采用网络传输,字库里没有的字计算机就打不出来,公民就领不到身份证。这次换发全国共统计到了4600个现行字库里没有的冷僻字,只能另行开发冷僻字字库软件,待软件开发好,安装到全国各个制证中心后,居民才能领到新的身份证。据报道,GB18030的方正超大字库除了包含《汉语大字典》的全部56000多个汉字外,还基本包含了中、日、韩、越等国的主要汉字,共收录了汉字70244个。但这么大的字库在输入、存贮、字体转换、打印、传输等方面会产生新的困难,因此走向商业化的路途并不平坦。

3.使用字形输入法(如“五笔字型输入法”)录入汉字需要接受专门的训练才能熟练掌握,相对来说,使用与键盘相对应的汉语拼音输入法确实比较简单。但汉语拼音化过程中绕不过去的困难—同音字、同音词普遍—在拼音输入中同样存在。这样,在使用字处理软件输入时,产生别字的概率就很大,从而影响中文信息处理的速度和质量。如“智力”还是“治理”、“学力”还是“学历”往往是颇让人头疼的事情。目前,这一问题还未能得到有效的解决。另外,拼音输入法虽然相对简单,但还是有相当一部分中国人,特别是中老年和文化程度较低的人,对拼音不熟悉,就成了被计算机拒之门外的人。还有相当一部分人普通话的发音不标准,如上海人前鼻音和后鼻音不分、湖南人“n”、“l”不分,在使用拼音输入法时也会产生很多麻烦。这些问题目前还没有行之有效的解决途径。汉语同音字多,同时也制约了汉语语音识别技术的发展,成为中文处理技术取得进一步突破的一个瓶颈。

4.字处理软件的成功开发和不断完善,使得汉字在历经艰难坎坷之后,终于进入了信息化时代的大门。然而,至今为止,中文信息处理基本上还停留在“字处理”阶段,也就是说计算机对汉语的“认知”是一个字、一个字地进行的。即使具备了“联想”功能,但是其原理仍是字的扩展而已。时代的发展对中文信息处理提出了新的要求,如语音识别、机器翻译、自动校对、海量数据的中文信息检索等技术,这些技术自然会涉及更高的语言层面,如句和篇。对照西方发达国家在某些领域取得的突破,中文信息技术取得的进展仍然非常有限。

在这些问题完全解决之前,特别是面临科学技术可能有的新突破、新发展,汉字兴废的问题还会不断被人提出来。危机恐怕还会一直持续下去。