四、信息检索

四、信息检索

曾几何时,文献检索、信息检索还是陌生词汇。如今,随着互联网的普及,人们已经普遍意识到信息检索是人们有效参与信息社会的一个先决条件,是终生学习的一种基本人权,是实现创新能力的基础。信息检索的起源是图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。现在,信息检索已经成为我们生活、工作、学习中不可或缺的组成部分。

人类社会进入20世纪之后,信息与物质、能量成了构成现代社会的三大资源,成为社会发展的巨大推动力。在信息化高度发展的今天,信息匮乏的日子一去不复返,但信息泛滥又使我们陷入另一种尴尬的境地。在尽可能短的时间内全、快、准地查找所需的信息,这是时代赋予信息检索的职责。《论语·卫灵公》有言“工欲善其事,必先利其器”。抓住信息检索这把利器,可以帮助我们从茫茫的信息海洋中去除糟粕、找出精华,更可以让我们的工作如虎添翼。

随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通信技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。

以教育为例,信息技术在欧洲和美国的教育中已经成为教育变革的推动力。课堂教学中,老师不再仅仅手持粉笔和板擦,而是运用电脑、视听器材以及各式IT设备,将学习信息以多种形式呈现在学生面前,并运用信息技术搜集、整理、加工、制作教学信息。美国中小学生的很多作业都是在电脑上完成的。像社会学科、历史学科这些人文社科类的作业,学生或独立,或以小组形式,借助网络强大的搜索信息的功能,查阅、搜集、整理、加工所需要的信息,并最终完成电子报告,通过学校网页发布或发送到老师的电子信箱;即使是理科类的作业,也有很多是以这种方式完成。学校和公共的图书馆里,你所见到的不再仅仅是一排排落满灰尘的书籍,随处可见的则是大量的利用IT来进行学习的各种资料、各种视听材料以及无数的计算机软件。在图书馆里,电脑甚至取代了书籍,成为最重要的教育、教学资源。这种巨变就如同一个当今战场上的现代化士兵,由高科技设施全副武装。

再来看一个例子。20世纪70年代,美国核专家泰勒收到一份题为《制造核弹的方法》的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,它是最详细、最全面的一份。”但使他更为惊异的是,这份报告竟出于哈佛大学经济专业的青年学生之手,而这个400多页的技术报告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获得的。由此可见,信息检索作为可获取、需处理的信息内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。

表6-1介绍了中外一些常见的检索数据库系统,也可以称为数字图书馆,它是相对传统图书馆而言的。众所周知,传统图书馆是一个人们看得见、摸得着、拥有一定数量馆藏和管理人员的一个物理建筑,是一个集收集、整理、保存、传递文献信息于一体的社会文化教育机构。在传统图书馆中,可通过以手工操作为主的工作人员,利用馆内的各种文献信息,为一定范围的读者提供服务,如外借服务、阅读服务、参考咨询、文献检索等。随着信息技术的发展,图书馆收集信息的载体也发生了变化,由单一的印刷型发展成缩微型、机读型、声像型等几种形式并存,因此有人称其为电子图书馆。而网络技术的发展又使得图书馆打破了地域和时间的限制,使人们无论何时、何地都可以访问图书馆的信息,因而又有人称其为没有围墙的图书馆[3]。鉴于这种图书馆是在网上访问的,而非现实当中存在的真实物理建筑实体,于是又有人称其为虚拟图书馆,由于其信息都是以计算机能识别的二进制的形式存储,因而又出现了数字图书馆的概念。

表6-1 部分常用的检索数据库系统

注:本文在此不一一列出这些数据库的互联网地址,如果需要进入这些数据库系统查看,请利用百度或者谷歌搜索其地址即可。

所谓信息检索(information retrieval),就是将信息按一定的方式组织和存储起来,形成各种“信息库”,并根据用户的需要,按照一定的程序,从“信息库”中找出符合用户需要的信息的过程。

广义的信息检索包括信息的存贮与检索两个过程。信息存贮过程,是解决如何建立检索系统,编制、标引检索工具或数据库,这主要由专业信息标引人员、图书情报部门的专职人员依据检索语言进行编制、标引。一般图书情报部门都把这部分编制、标引出的“信息库”,放在图书馆的检索系统或图书馆的服务器中。信息检索过程,则是根据已知的检索工具和检索库,按照一定的检索规则(检索语言)将所需的文献资料查找出来的过程。

狭义的信息检索就是上面所提及的广义信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询。因此,本书要向各位介绍的信息检索就主要是指怎样利用检索工具和检索库查找信息资料。当然随着因特网的发展,网络信息空间得到了极大的拓展,在信息检索中也占有很重要的位置。

我们在检索信息时,无非就是两类检索——手工检索(简称“手检”)和机器检索(简称“机检”)。手检是靠“手翻、眼看、大脑判断”完成检索任务,它检准率高,但检索速度慢、效率低。机检则是通过“选词、制定检索策略、机器匹配”来执行检索,包括光盘检索、联机检索、网络检索。鉴于实际需要,本书在此不向各位介绍印刷型检索工具——比如《全国报刊索引》——的使用。下面我们将简要地以中国学术期刊网络出版总库(China Academic Journal Network Publishing Database,CAJD)为例向大家介绍电子数据库的检索。

目前,EI(工程索引)与SCI(科学引文索引)、ISTP(科学技术会议录索引)被列为世界著名的三大综合科技类检索刊物,许多单位都对这三大检索刊物收录论文的情况做统计排名,以此作为衡量学术水平的一个重要参考指标。这些数据库的使用都有专门的资料介绍,大家可以利用百度和谷歌去查找,这也是一种检索的能力,不是吗?下面我们将以中国学术期刊网络出版总库(CAJD)为例简要地抛砖引玉向大家介绍一下电子数据库的检索。

中国学术期刊网络出版总库是专门针对期刊检索而言的,是中国知网,即中国国家知识基础设施工程(China National Knowledge Infrastructure,CNKI)的系列数据库之一,是国家“知识资源数据库”出版工程的重要组成部分。中国国家知识基础设施工程(CNKI)的概念,首先由世界银行于1998年提出,后由清华大学光盘国家工程研究中心、清华同方光盘股份有限公司等单位发起,于1999年6月开始实施。目前CNKI已建成了十几个系列知识数据库,而中国学术期刊网络出版总库是目前世界上最大的连续动态更新的中国学术期刊全文数据库(如图6-2所示)。

截至2012年10月,中国学术期刊网络出版总库(CAJD)收录我国自1915年以来国内出版的7 900余种学术期刊,全文文献总量3 200多万篇。内容涵盖十大专辑:基础科学、工程科技Ⅰ、工程科技Ⅱ、农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ、社会科学Ⅱ、信息科技、经济与管理科学。十大专辑下分为168个专题。该库既有浏览功能又有检索功能,还有引文链接功能,及对个人、机构、论文、期刊等方面的计量与评价功能,并能共享CNKI系列数据库的各种服务功能。

图6-2 中国知网的主界面

CAJD的最大创新就是推出了引文网络,也就是知网节。知网节是一条知识链接的纽带,通过这条纽带,研究人员可找到一批相似文献、相关机构、相关作者。借助参考文献、二级参考文献可追溯课题的发展历史、研究背景,借助共引文献、同被引文献可了解课题的研究现状、目前进展,借助引证文献、二级引证文献可展望课题的发展方向、后继研究。

下面我们看看中国学术期刊网络出版总库的一些检索页面。在图6-2中的检索项下,有全文、主题、篇名、作者、单位、关键词、摘要、参考文献、中图分类号、文献来源等项目可供选择(如图6-3所示)。你可以选择你需要的,然后在后面一栏中输入你的检索词,点击“检索”即可。

当我们以“作者”为检索项,输入关键词“南旭光”检索之后,就会发现,在“检索”按钮之后还有“结果中检索”“高级检索”等项目。比如我们要进一步缩小对作者“南旭光”发表文章的范围,为了进一步限定,我们要求作者单位为“重庆”,点击“结果中检索”。那么检索的结果就如图6-4所示。

图6-3 中国知网主页面的检索项

图6-4 中国知网学术文献标准检索结果界面举例

该检索结果中部显示了检索的记录“共有记录76条”,而且可以根据需要按照相关度、发表时间、被引频次、下载频次进行排序显示。该检索结果下部则显示了该作者发表的全部文章的基本信息,包括题名、文献来源、发表时间、被引频次、下载频次等。如果你想查看某篇文章的具体内容,那么就请你点击结果中显示的“题名”链接,就进入“节点文献”区。在此页面你可以看到CAJD中文献资源的全文显示格式有CAJ和PDF两种,第一次阅读全文必须下载安装CAJ或PDF全文浏览器,否则无法阅读全文。

好了,现在我们已经介绍了中国知网的文献检索基本情况,其他数据库——如维普资讯、万方数据知识服务平台等的使用大同小异,相信你一定可以举一反三,全面掌握各种数据库的检索技能。