5.4.1 全文检索工具
1.工具概述
全文检索对信息资源及文档信息进行检索,即根据用户的查询要求,从信息数据库中检索出相关信息资料。全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。全文检索的关键是文档的索引,即如何将源文档中所有基本元素的信息以适当的形式记录到索引库中。在中文文档中,基本元素可以是单个汉字,也可以是词或词组。根据索引库中索引的元素不同,可以将全文检索分为基于字表的全文检索和基于词表的全文检索两种类型。
2.功能模块
全文检索工具可以分为三大模块,分别为数据搜索服务模块、数据搜索发布模块、个性化服务模块,如图5-10所示。
图5-10 全文检索工具功能图
(1)数据搜索服务模块
数据搜索服务模块使搜索服务与具体的搜索产品隔离开来,为数据搜索发布提供基础服务,其主要包括如下模块。
1)拼写检查服务
用户在进行搜索时,经常会输入错误的词及字,通过Web 2.0的Ajax技术,当用户在检索框中输入的字或者词实时提交到后台进行检查,并反馈到客户端,提示用户是不是正确的检索词。
2)简单搜索服务
通过用户输入的检索词,提交到服务器,进行基本的搜索服务功能,采用系统默认排序方式。
3)复杂搜索服务
不仅提供了输入的检索词,还包括搜索时间,选择资源目录分类,并能够根据用户的要求进行相关排序,可以进行“与”“或”“非”等操作。
4)分类搜索服务
在客户端页面,可以选择自己需要的信息资源栏目进行搜索,使用户能够快速精准地完成搜索。
5)拼音搜索及中文提示服务
用户输入拼音时,系统通过Web 2.0技术将当前输入的拼音提交到后台,返回当前拼音的中文词及词汇,并提示给用户进行选择,便于用户快速访问。
6)输入提示服务
在用户在输入框里输入查询词时,通过Web 2.0技术进行异步提交后台服务器,并推送出用户可能的输入,使用户方便进行快速地输入。
7)地理关键词搜索关联显示服务
系统建立了地理信息词库及地理信息专题关键词库,用户输入的搜索词或者搜索词的分词与此库相关,系统将在搜索的列表中将地理信息相关专题或者地名地址的电子地图展现出来。
8)热点搜索词分析服务
每次用户进行搜索的时候,将用户输入的搜索词存储起来,并进行排序,通过搜索排行榜及热点搜索词推荐相关分析服务,用户可以根据热词排序来快速搜索。
9)相关搜索提示服务
根据用户搜索记录及正在进行的搜索词汇,提供与用户搜索相关词的提示服务。
10)基于指标体系排序服务
按照预先在指标体系中设计的排序规范及权重,当用户输入的搜索词,通过分词处理后,如果这些词在指标体系中,通过指标体系的规则进行排序,以便于用户最感兴趣的检索结果排列在前面。
11)搜索结果分类展现
根据不同信息来源及信息分类,将搜索的结果进行一定的分类。
(2)数据搜索发布模块
1)搜索主页面
系统设计开发出搜索的主界面,包括输入框,查询列表及相关的信息选择项。
2)拼音搜索和中文提示
在搜索框输入时,系统自动按拼音排序和对应的拼音提示中文进行搜索。
3)搜索结果预览
采用Web 2.0技术在鼠标移动事件时快速生成相应的缩率图,并显示在结果页面上,当鼠标离开时快速地消失。
4)浏览记录
用户查询结果的列表中,当选择了浏览具体的一条记录时,同时记录这条信息的来源,条目及栏目等信息,并且和用户机器的IP地址挂钩,作为后期系统评价的指标。
5)高级搜索页面
高级搜索页面,包括各种信息资源分类、多关键词、多条件、排序方式等内容,用户可以根据需要再搜索过程中增加限制条件达到提高搜索准确性的目标。
6)搜索结果展现
通过多种形式来展现搜索结果,例如列表、图表混合、电子地图、视频、天气预报等。
7)输入记录
查询时,同时记录用户的输入查询信息,以日志的形式保存,通过对用户的检索习惯及相应的数据查询排序进行排序优化,使得重要的查询能够排在前面。
8)搜索结果关联服务
对于搜索结果的展示,充分利用检索结果所在的业务系统完成,查询列表后,记录打开可以直接和原始系统网页进行关联,通过业务系统的用户界面打开相关的记录。
(3)搜索个性化服务模块
1)个人搜索设置
用户根据自己研究或者从事的领域,工作重点设置常用的搜索选项,基于用经验,将使用者计算机配置的地址与个人信息进行关联,当系统开发页面时,根据IP地址获取到个人设置的偏好及关注点,能够自动加载个人搜索设置的内容。
2)个人搜索记录
不同于其他商业网站的个人搜索历史记录采用cookie存储的方式,本工具将个人搜索历史记录存储在数据库中,一方面可以帮助用户对自己搜索的记录进行保存,另一方面也为后期信息资源评价提供数据支撑。
3)检索收藏
政府信息资源非常丰富,数据量大,栏目众多,因此用户很难记住曾经浏览过的网页及信息,通过在系统中增加检索收藏夹的功能,类似浏览器自带的收藏夹,让用户自己选择是否将自己感兴趣的结果收藏在收藏夹中,以便于后期进行再次阅读。