汉字信息处理

第十章 汉字信息处理

随着计算机技术的迅速发展和广泛应用,汉字信息处理的问题日益引起了人们的关注。二十年前,这曾是个棘手的问题,而这个问题如果不能解决,将严重影响计算机在我国的广泛应用,严重影响我国四化的发展。对此,曾有人断言:“电子计算机是方块汉字的掘墓人,也是汉语拼音文字的助产土。”(陈明远《电子计算机和汉字改革》)汉字似乎遇到了灭顶之灾,非死亡不可了。但是,时间不过十几年,汉字信息处理的问题不但已经解决,而且汉字输入的效率比拼音文字还要高一点。这就为计算机在我国的广泛使用扫清了道路。

汉字信息处理是怎么回事?为什么它一度很难解决?现在它又是怎样解决的?

所谓汉字信息处理,就是把汉字处理成电子计算机能接受的信息,解决汉字的输入、转换、储存和输出等问题,使计算机能处理汉字记载的各种资料和知识。

众所周知,计算机能识别的基础信息只有0和1,其他一切比较复杂的信息都必须转换成以0和1的不同组合所表示的信息,才能被计算机所识别。为了让计算机能进行数学计算,必须把各种数字和各种运算方法(如加、减、乘、除、乘方、开方等)都编成由0和1组成的不同编码,如10表示2、11表示3,100表示4、101表示5等。为了让计算机能处理更复杂的问题,必须研制一套套机器语言。几十年来,计算机语言已经相当发达,常用有BASIC、LOGO、FORTRAN、PASCAL、COBOL、C等。利用这些语言,已经能够让计算机解决社会生活许多领域的问题,例如工农业生产、交通运输、商业服务、行政管理、教育卫生等。但是,由于汉字数量多、结构复杂,汉字信息处理要比拼音文学困难得多。因为拼音文字的字母只有几十个,最多也不过一百来个,而汉字却有近五万个。把近五万个汉字都输入计算机,这在七十年代,是难于想象的。怎么办呢?

首先,要减少汉字的数量。根据以往的经验,人们知道,汉字的总数虽然有近五万个,但其中大多数是生僻字,一般不使用,有些字甚至是死字,真正常用的不过几千字。把这常用的几千字确定下来,就能既大大减少了汉字的数量,又不影响人们的使用。这就须要进行汉字使用频率的统计。由于不同行业使用汉字的情况是不同的,所以统计汉字的使用频率就必须包括各行各业的文字资料。为了减少统计数字的偶然性,增加其客观性,调查取样必须是大量的。十几年来,人们进行了多次统计,每次取样均在百万字以上。不同的统计得出的结果大体是相同的。(详见《汉字频率词典》)国家标准局据此发布了《通讯用汉字字符集(基本集)及其交换码国家标准》(代号GB2312—80,下称《字符集》)。《字符集》把汉字分成两级,第一级汉字为3755个,第二级汉字为3008个(包括部首在内),共收汉字6763个。一级汉字占出现频率的99.9%,二级汉字占出现频率的0.099%。一、二级汉字合计,等于出现频率的99.99%。

其次,要给计算机设立一个汉字库。世界通用的各种汇编语言用的都是英文,要使计算机具有处理汉字的功能,必须给它设立一个汉字库。汉字库不仅要把一二级汉字全部包括进去,而且还必须留有一定数量的空位,供临时造的生僻字储存使用。汉字库内的每一个字符,都必须转换成0和1的不同集合,以便让计算机能识别和处理。这项工作名称叫造字,即用0和1作基本符号,把一个个汉字作为一幅幅图画去表现。这项工作异常费时,因为汉字数量大,结构复杂,代码一定很长。汉字库中的字符必须按一定规则排列,给每个字符一个交换码,以便检索。这个问题比较容易解决,因为汉字原有的四种检字法,只要稍加改造即可使用。四种检字法是:部首法、音序法、笔画法、四角号码法。四种方法中以四号号码法最快,并且可以作到字有定位;但也有明显缺点,就是不少字怎样取码人们难于断定。部首法、音序法、笔画法都不能使字定位,但群众比较熟悉。这样,采取这三种方法都必须混合使用其中的两种。例如采取部首法,则同部首的字按笔画多少定序;采用音序法,则同音的字按笔画多少或笔形先后为序。现在国家标准《字符集》采用了两种方法,第一级汉字按汉语拼音字母顺序排列,同音字以笔形顺序横(一)、竖()、撇()、点(、)折(乙)为序。首笔相同的按第二笔,依此类推。第二级汉字按部首排列。《字符集》采用的部首与一般字典用的部首基本相同,略有改并。部首次序及同部首字按笔画多少排列,同画数的字以笔形顺序一、乙排列。这样每个字都有一个固定的位置,一个固定的区位码,如啊(1601)、阿(1602)、埃(1603)、挨(1604)哎(1605)、佟(5701)、佗(5702)、伲(5703)、伽(5704)、佶(5705)等。

第三、要解决汉字输入问题。把汉字输入到计算机中去,是汉字信息处理的最重要的问题,也是最难解决的问题。为了解决这个问题,科技工作者进行了艰苦的努力,取得了重大突破。迄今为止,人们探索过的方案,可分为摄入法、读入法、键入法三类,具体方案多达几百种。

所谓摄入法,就是利用光电扫描的原理,让计算机把汉字摄入进去的方法。汉字是记录汉语的图形符号,适宜光电扫描,而光电扫描的设备又早已问世,所以摄入法理应是汉字输入的最佳方法之一。利用这种方法,可以把事先写好的几个、几十个、几百个汉字(包括英文、法文等各种文字、阿拉伯数字、各种图表等),瞬间输入计算机,既神速又准确。但是由于汉字数量很大,结构复杂,加上手写体差别大,要让计算机一一辨认清楚并能转换处理,其难度是很大的,对机器的要求必然很高的,造价必然昂贵。目前,要使它成为普遍可用的实际输入手段,还不现实。况且这种方法要求输入前要有清楚端正的文稿,对要把计算机当作直接书写工具的人们,它是不适用的。

所谓读入法,就是利用声电转换的原理,把汉字读给计算机听的方法,即语音输入法。利用这种方法,人们可以直接用语言对计算机发指令,极为灵活方便。但是,这要求计算机具有会听的能力,并能把听来的信息转换成为汉字。可是,现在通用的计算机还不具备这种功能,要让它具有这种功能,必须附加一定的硬件和成套的软件。这种方法正在研制,在不久的将来也许就能问世。

所谓键入法,就是通过用手击键输入汉字的方法。由于上述两法目前均还不能普遍应用,国内外专家一致认为,对于信息处理系统而言,键入法是当前最适用的方法,今后若干年内大概也还会是这样。

对于拼音文字来说,由于字母数量不多,所以采用键入法比较方便。但对汉字来说,这却是个十分复杂的问题。因为汉字数量多,仅国标《字符集》规定的常用字就有6763个,要把这么多汉字统统放在键盘上,就非做一个特大键盘不可。如果一字一键,就必须设六千多键。这样作虽然有优点,就是一字一键,没有重码字;但是键盘太大,键数太多,操作起来十分不便,并且成本也太高,不切实用。为了减少键数,曾有人设计了一种一键多字式键盘,在日本曾大量使用。但是,由于我国常用汉字比日本应用汉字多很多(日本当用汉字不足两千),使用这种键盘也不能把常用字全部包括进去,而且这种设备依然体积大,造价高,操作时须双手并用,因此使用范围受到一定限制。从缩小键盘着眼,近年来出现了一种笔触式键盘。这种设备体积小,造价低,初学者极易掌握,适合在某些专业系统使用。但是,由于它不能实现“盲打”,操作时须要较多时间注视盘面,不但影响速度,而且容易出错,输入速度低,难于普遍采用。

为了提高汉字输入效率,人们认为,采用字母数字键盘是比较合适的,也是可能的。采用这种键盘可以和英文随意切换,用途广泛。为此,要对汉字进行编码,利用输入代码的方法,来取代输入整个汉字的方法。这就是人们大力研究汉字编码的原因。

为了使每个汉字的代码便于操作者记忆,汉字编码必须有很强的规律性,让人们一望便知。这就必须利用汉字的固有属性。所谓汉字的属性,就是指汉字的字形、字音、字义、笔画等。有的方法只使用汉字的一种属性,有的则混合使用两三种属性。编码方案有数百种,大体可归纳为五大类:

一、字根代码类:所谓字根,就是汉字基本笔画的组合,类似常说的偏旁,但比偏旁又要少很多。把汉字的字根排列在键上,让一个键代表几个字根,输入时通过两次或数次击键,合成一个字。例如弓、长(张);立、曰、十(章);文、刂(刘);古、月(胡);口、玉(国);不、辶(还)等。

二、笔画代码类:利用汉字的基本笔画编码,把一、、乙等,直接列在键盘上,如让X键代一、让Y键代,输入时像写字一样,一笔一笔地击键,合成汉字。例如“庆”字,可按六笔,依次击键,即可输入计算机。

三、角形代码类:利用汉字字形的四角、三角,确定其代码的四角号码法、三角号码法、几何编码法,可将汉字直接转换成数码,按数码击键,就能将汉字输入计算机。。

四、字音代码类:按汉字的字音给汉字编码,输入汉字时依字音击A、B、C等字母即可。这类编码法中有的完全按“汉语拼音方案”采用音素制,有的也稍加改造,还有的采用声韵双拼的。为了区别声调和同音字,一般采用二次选择的办法,也有采用词码或与笔画代码混合使作用的方法。

五、音形结合的代码类:利用字音字形两种属性编码,例如越(Y、Z)、粤(Y、P),意思是越音yue,偏旁走;奥音yue,第一笔为撇。利用这种方法可以避免重码字。

为了进一步提高输入速度,近几年来词码发展很快。所谓词码,即给词编码。例如“中国共产党”、“社会主义”、“北京”、“上海”、“广东”等常用词语,不再以单字编码,而是以整个词编码,输入时按词码击键,该词便整体输入。利用词码,可以大大提高汉字输入效率,一个汉字平均击键数大大降低。

第四、要编制汉字应用程序:单有了字库,有了编码方案,还不能使计算机接受汉字信息,处理汉字信息,而只是为汉字输入计算机提供了可能。要把可能性变成现实,必须编制汉字应用程序(俗称汉字系统)。所谓汉字应用程序,就是用计算机语言把汉字编码方案的每一条规则解释清楚,让计算机在接到从键盘输入来的信息时,知道要拣什么字,显示什么内容。这是人和计算机联系的桥梁,没有它,计算机便不能接受和处理汉字信息。为了方便用户,优秀的汉字系统,不仅包括汉字处理,而且包括图形处理、声音处理,我国研制的中华机和各种286、386、486微机,不仅把汉字库作成硬卡,而且把汉字系统也作成模块,装在微机里,用户只要按指令操作,就可以输入汉字,十分方便。汉字库,汉字系统也可以存在软盘上,使用时用汉字系统启动,把汉字库放在启动器里,供检字用。这种办法对没有汉卡的微机,十分适用。

在解决了汉字进入计算机的问题以后,有关科技专家又在提高汉字输入速度问题上刻苦钻研,终于又取得了巨大成功。他们采用的主要办法就是由单纯字码输入改为以字码为基础、以词码为主导入,这就使汉字的输入速度大大提高,以至竟超过了英文。这样,汉字与计算机结合问题就彻底解决了。