4.1.1 文本数据整合
2025年08月10日
4.1.1 文本数据整合
文本数据主要包括政府内部来往的公文、政府网站上的网页以及政府外部科研工作形成的研究报告等,它的主要类型为Office文件格式、网页文件格式或其他文档类型的文件格式。
文本数据整合是指利用全文检索实现多来源、多系统、多数据库的信息汇总整合。文本数据整合的关键是建立信息资源的索引库,通过索引库可以快速定位文本。索引库建立要求如下。
(1)源数据解析完备:源数据解析时,应根据信息资源的特征识别标题、作者、关键词、日期、摘要、来源、内容、链接地址等基本信息。基本信息不完备时,可根据源数据的特点和检索的需要,补充扩展信息。
(2)目标文件建立规范:根据解析结果在检索库中建立目标文件,应按照实际情况合理设置数据字段长度,准确选择数据字段类型,并按字段的重要程度划分必选数据字段和可选数据字段。
(3)源数据与目标文件对应关系明确:目标文件建立时,应明确源数据相关信息与目标文件字段间的对应关系。原则上,源数据基本信息对应目标文件的必选数据字段,源数据扩展信息对应目标文件的可选数据字段,其中必选数据字段不能缺省。