3.5.3 汉字字符

3.5.3 汉字字符

汉字是中文信息的基本组成单位,其本质也是字符。汉字虽然是一种象形文字,但是计算机系统对汉字的处理也需要对其进行编码。西文字符的个数少,容易进行编码。然而,汉字的总数超过6万个,数量非常庞大,这给编码造成了很大的困难。为了适应汉字系统的不同要求,计算机必须解决输入码、内码和字模点阵码等问题。

输入码是指对每个汉字用相应的按键进行的编码,也即汉字的输入码是计算机键盘中的按键。键盘是以西文字符为基础设计的,一个按键对应一两个西文字符,因此用键盘来输入西文字符非常方便。但是汉字字符集非常庞大,无法采用专用的输入键盘。因此,使用目前的西文字符键盘是比较好的解决方法。一个输入码对应某几个按键就可以解决。

内码是指汉字字符输入到计算机中后以编码的形式在计算机中进行存储、查找和传送等处理。西文字符的内码就是ASCII码。1981年我国颁布了《信息交换用汉字编码字符集》。也即GB2312—80,这个标准也称国际码。该标准选了6763个常用的汉字,为每个汉字规定了其代码,也就是对这6763个汉字进行了编码。GB2312由三部分构成,第一部分为字母、数字和各种符号;第二部分为一级常用汉字,有3755个;第三部分为二级常用汉字,有3008个。对于同一个汉字来说,其内码是一样的,但是输入码的编码方法可以不一样。

字模点阵码是指把汉字用二进制点阵数据来表示。经过输入码和内码的处理,汉字还需要在屏幕上显示出来,这就必须把汉字转换成方块字的形式供人们阅读。要想在屏幕上显示出方块字的字形,就要求计算机内部事先有每一个汉字的字形。这种所有字符的形状的描述信息集合在一起称为字库。例如,宋体和楷体对应不同的字库。在计算机输出汉字时,计算机先要到指定的字库中找到它的字形,再把它显示在屏幕上。字模点阵码就是描述字形的方法。字模点阵码是用0和1来表示汉字,在每个汉字的黑点处用1表示,空白处用0表示。