4.2.2 万维网信息检索系统
万维网页面分布在不同地域的各个站点上。如果知道信息存放的站点,通过URL就可以对它进行访问。如果不知道要找的信息的具体位置,那就要使用万维网的信息检索系统。
万维网环境中的信息检索系统是指根据一定的策略、使用特殊的程序从Internet上搜集信息,并对信息进行处理,将用户检索的相关信息展示给用户,为用户提供检索服务的系统。
在检索系统中用来进行搜索的程序叫作搜索引擎(Search Engine)。搜索引擎的种类有很多,主要包括全文检索搜索引擎、分类目录搜索引擎和垂直搜索引擎。
全文检索搜索引擎的工作原理是通过搜索软件(如一种叫作“蜘蛛”或“网络机器人”的程序)到Internet上的各网站收集信息,并按照一定的规则建立一个在线数据库供用户查询。用户在查询时只要输入关键词,就可以从已经建立的索引数据库上进行查询。需要注意的是,这个数据库内的信息并不是实时的。因此建立索引数据库的网站必须定期对已建立的数据库进行更新维护,否则用户搜到的信息很可能过时。比较出名的全文检索搜索引擎就是谷歌网站和百度网站。
分类目录搜索引擎并不采集网站的任何信息,而是针对各网站向搜索引擎提交的网站信息(如填写的关键词和网站描述等信息),人工进行审核编辑,如果认为符合网站登录的条件,则输入到分类目录的数据库中,供网上用户查询。虽然它有搜索功能,但人为因素会多一些,所以严格意义上不能称为真正的纯技术型搜索引擎。在分类目录搜索引擎中最著名的就是雅虎、新浪、搜狐、网易等。
从用户的角度看,使用这两种不同的搜索引擎都能够达到查询信息的目的。在使用全文检索搜索引擎时,用户需要输入关键词。而对于分类目录搜索引擎,用户还能够根据网站设计好的目录有针对性地逐级查询。此外,用户得到的信息形式也不一样。全文检索搜索引擎往往可直接检索到相关内容的网页,但分类目录搜索引擎一般只能检索到被收录网站主页的URL地址,所得到的内容比较有限。为了使用户能够更加方便地搜索到有用信息,目前许多网站同时具有全文检索搜索和分类目录搜索的功能。
垂直搜索引擎针对某一特定领域、特定人群或某一特定需求提供搜索服务。在垂直搜索中,用户提供的关键字会被放到一个行业知识的上下文中进行查找。例如,用户希望查找的是海南旅游的信息(如酒店、机票、景点等),而不是有关海南的新闻、政策等。目前热门的垂直搜索行业有:购物、旅游、汽车、求职、房产、交友等。