4.1 引言
我们如何能识别出引文网络中最重要或者最突出的节点?例如,在期刊引文网络中,我们如何能找出最重要的期刊?或者独立出版物的引文网络中,我们如何判断每种出版物的重要性?引文分析作为文献计量学和科学计量学中与科技文献引文研究相关的一个研究领域,这些问题是其核心问题。通常,研究者试图使用相对简单的计量和综合方法来回答上述问题。毫无疑问,这些方法中最著名的是期刊影响因子(Garfield,1972)和h指数(Hirsch,2005)。影响因子、h指数和其他类似方法只考虑一个引文网络的本地结构。例如,要计算一种期刊的影响因子,我们需要知道期刊被引用的数量,但是这些引用来自哪些期刊、每种期刊自引多少次等是不重要的。源自《自然》或《科学》的引用和来自一些无名期刊的引用有同样的权重。
这一章,我们思考一个能考虑到引文网络的全局结构而不仅仅是本地结构的方法。其主要思想是引文网络中来自高被引节点的引用比来自低被引节点的引用赋予更大的权重。例如,被一种著名的高被引期刊引用比被一种不知名的低被引期刊引用更有价值。通常,考虑引文网络全局结构的方法和著名的PageRank方法密切相关(Brin,Page,1998;Page,Brin,Motwani,Winograd,1999)。PageRank方法被Google搜索引擎用于Web页面排序。使用PageRank方法,如果一个Web页面被许多其他的Web页面链接尤其是这些链接页面也有高的排序等级,那么它的排序会提升。PageRank思想能较容易地从超链接网络转化到出版物、期刊或作者的引文网络。实际上,在引文分析中,在PageRank作为一种方法用于Web页面排序之前的20多年,其基本思想就已经被提出来了(Pinski,Narin,1976)。然而,PageRank作为Web页面排序方法的引入导致了人们将其用于引文分析的新兴趣。尤其是近年来,大量重要的工作已经投入到其中。
这一章的目的是解释PageRank思想,综述引文分析中与PageRank相关的方法,使用两种知名的软件工具一步一步演示PageRank如何用于引文网络。在4.2节我们解释PageRank思想;4.3节对相关研究进行综述;4.4节提供一个使用手册,说明如何使用Sci2工具和MATLAB执行PageRank计算。最后,4.5节总结本章内容。