5.3.1 文本数据整合工具

5.3.1 文本数据整合工具

1.工具概述

文本数据整合工具实现的目的是便于实现高效的跨库全文检索,以及为知识服务提供数据支持。文本数据整合是将数据整合到非关系型数据库中,并最终形成全文检索分词库。对于纯文本文件的数据,通过编写数据抓取及解析程序,将文本文件数据进行入库,数据入库程序要能够进行增量数据入库功能。对于XML格式、关系型数据库格式、全文数据库采用Gateway进行数据的增量转换入库。

通过以上两种方式形成全文检索数据库,为便于对数据的分类,不同来源的文本型数据转到不同的文本型数据库中。最终通过视图的方式来联合所有的数据库。

2.功能模块

文本数据处理模块包括文本解密模块、文本转码模块、分词索引模块、索引维护模块。其中文本解密模块与文本转码模块与信息资源的特征相关,而分词索引与索引维护模块则是较为通用的模块。文本数据整合工具功能图如图5-5所示。

图5-5 文本数据整合工具功能图

(1)文本解密模块

需要整合的某些信息资源中的信息条目是经过加密的,因此需要进行文本解密,以实现文本数据的进一步处理。加密的一般方法有弱加密和强加密,其中弱加密包括ROT13、Base64、Carser法等,强加密则有DES、RSA等加密体系。

(2)文本转码模块

文本的编码方法很多,特别是国际化环境中不同的语言有不同的编码方式,同一种也可能有多种不同的编码。因此文本需要进行转码,统一到Unicode上来才能进行下一步的处理,文本转码模块的功能类似于Libiconv,但其可以通过统计方法来猜测没有编码信息的文本可能的编码方案。

(3)分词索引模块

分词索引是文本数据处理中的最基础和最重要的功能。分词索引是进行全文搜索必需的处理过程,分词索引模块将文本分割成词汇表中的条目,从而产生倒排表来为以后的关键词检索服务。

(4)索引维护模块

索引维护包括分词表更新、索引复制、索引更新与删除等操作,索引维护是文本处理的重要模块。