45万字《方言笺疏》搬进了计算机古籍研究告别“卡片时代”

45万字《方言笺疏》搬进了计算机古籍研究告别“卡片时代”

经过一年多研究,华中科大将45万余字的文字学古籍《方言笺疏》,成功搬进了计算机。古汉语研究由汗牛充栋的“卡片时代”跨入“数字化时代”。

昨日,这一新成果首次亮相。

由清代学者钱绎撰写的《方言笺疏》,是古汉字研究者必读的重要典籍,全书13卷,共计45万余字。

针对古汉语典籍冷僻字繁多的特点,尉迟治平教授等人自主开发出一套古汉语语料专用处理软件。如果研究者想要查询某个汉字在不同年代、不同地区的方言状况,只需输入“关键词”,数据库自动弹出查询者所需要的信息。如第一次提供的信息还不能满足需要,查询者可在当前结果中进行二次或多次查询。

此前,研究者要想了解某个汉字的历史流变,基本都须从卷帙浩繁的文献古籍中采用卡片记录或书签等方式查找、分类,并将这些卡片收藏在不同书柜里,以备日后调用。为了研究某个汉字,研究者收藏的分类卡片不仅“汗牛充栋”,而且调用时尤为不便。

此前美国微软公司也推出了收录有6.4万余字的超大字符集,基本解决了中文古籍计算机处理的瓶颈问题,但该字符集一方面仍使几万个冷僻汉字无法实现计算机输入;另一方面,由于要输入某个冷僻字,输入者必须先在《康熙字典》或《汉语大字典》上查阅该汉字所在的位置后,再依据国家标准进行编码。即便以这种方法输入,往往计算机仍无法识别该汉字。

据介绍,目前该校已完成另外两部古籍——20卷本《尔雅义疏》和8卷本《释名疏证补》的电子化处理。预计在2007年9月前,该课题组将完成《说文解字》《中原音韵》等其他28部古籍的电子文本化处理。

img《长江日报》2005年9月30日 作者:柯进 黄志明)