前 言
学术影响力的测量和评估在过去的20年里经历了巨大的改变,这主要归因于学术交流方式的发展以及研究学术交流所使用工具和技术的改进。在对个人、研究团队、期刊、学术部门或机构、国家按其在各自领域中的学术贡献进行排名时,科研影响力的测量所起的作用越来越重要。在20世纪初期的计量研究中,关于学术交流的小规模定量研究最早只对文献生产方式的不同类型进行了揭示。发展到今天,计量方法则将一系列的工具和技术应用于大规模数据集。统计学、可视化技术、网络分析、文本挖掘和信息检索等相关工具和技术,为计量现象的研究和学术影响力的评估提供了新的方式。文献计量学(Bibliometrics)这一概念目前还在被广泛运用,它的历史可追溯到20世纪30年代,当时Otlet引进了法语词“bibliométrie”(Otlet,1934)。后来Pritchard(1969)将文献计量学定义为“数学和统计学方法在图书和其他交流媒体上的应用”。几乎同一时期,Nalimov和Mu'chenko(1969)提出了科学计量学(Scientometrics)这一概念,并将之定义为“把科学作为一种信息过程进行分析的定量方法的应用”。随后,Nacke(1979)提出信息计量学(Informetrie)这一概念,它包含有关信息及其产生、散播和使用等研究的所有定量方面。最近,网络计量学(Webmetrics)这一概念被用来描述计量方法在互联网,尤其是万维网信息现象中的应用(Almind,Ingwersen,1997)。由于篇幅有限,我们不能对这些主题进行详细的阐述。如有对信息计量学的历史和研究范围感兴趣的读者,可参考De Bellis(2009)、Björneborn和Ingwersen(2004)以及Egghe和Rousseau(1990)等人的文献。
信息计量学的研究对象已经由传统的作者、期刊等扩展到更为广阔的领域。与此同时,现有的大型数据集使得对科学交流产品的生产、散播和使用进行更详尽的研究成为可能。在当今数据驱动的研究时代,信息计量学在科研实体(Science Entity)的评价中起着至关重要的作用。研究的焦点扩展到论文中使用的数据库以及论文中提到的基因和药物等(Ding et al.,2013)。从更广泛的角度而言,科学共同体呼吁对研究(尤其是生物医学领域)的实践性和可复制性进行详尽的审查(Researching and Researchers,2014)。而信息计量学所使用的技术在此过程中可起到非常重要的作用。最近发展起来的一些方法,如在本书中介绍的数据和文本挖掘、网络分析以及用于揭示大型数据集中的隐藏关系或类型的高级统计方法,这些方法已成为衡量学术交流的重要工具。
至今为止,只有少量的专著对信息计量学相关的主题进行了论述。而对于信息计量学的最新发展以及如何使用这些新技术却无人问津,而这些正是本书所阐述的主题。本书的目的是为可用于学术影响力评价的主题、技术和方法提供一本权威的手册。本书的读者应该对学术交流和信息计量学学科领域有一个基本的认识,并对统计方法有一定了解。然而,对信息计量学研究不是很熟悉的读者,也可以获取和使用本书提到的工具和方法。
本书共分为四个主题部分:网络工具和分析、科学系统、统计方法与基于文本的方法、可视化。所有章节均由本领域的国际一流科学家提供,每一章均提供了对所述主题的介绍,并阐述了如何将该主题技术和方法应用于信息计量学研究。本书的最后一章由Börner和Plley提供,此章将前述章节中提到的主题进行了汇总。
第一部分是“网络工具与分析”,包括四章。第1章是“利用Map Equation Framework实现网络的社区发现及可视化”。大型网络中往往蕴含着丰富的与系统有关的组织信息,但是,要从大量节点和链接结构中提取出隐含的有价值的信息却是一个难题。因此,能够简化和突出网络中重要结构的工具对于理解其组织结构是十分必要的。本章介绍一种叫作Map Equation的方法及对网络组织结构的发现、评估和可视化的相关算法。因为Map Equation Framework是基于网络链接推导的,可以获取到引用信息,因此也非常适用于书目网络分析。第2章是“链接预测”。社会和信息网络按照特定的规则进化。给定一个网络结构,一些潜在的链接比其他链接更有可能出现。这就引出链接的预测问题:怎样才能预测哪个链接在未来的网络快照中会出现,或者哪些链接会从一个不完整的网络中消失?这一章对链接预测作了一个实践综述,给出关于链接预测过程的总回顾,讨论了其对推荐和异常检测等应用的重要性。然后,介绍了在执行链接预测过程中采取的步骤,包括前处理、预测器选择和评价。这些步骤是使用免费的linkpred工具在研究者协作的小规模案例研究中被证明过的。第3章是“网络分析与指标”。网络作为一种表征和一种研究科学的方法已有很长时间。随着较大数据集的出现及计算能力的提升,网络分析在科学研究特别是科学指标研究方面变得更加流行。本章中科学指标被宽泛地定义为对科学方面变化的度量,内容覆盖基于网络科学的指标,与科学的社会和认知方面相关,尤其侧重不同的中心性度量。本章使用发表在《科学计量》期刊跨越10年的文章(2003—2012)来展示在合作者和引文网络中如何计算指标。第4章是“分析引文网络的PageRank相关方法”。引文分析的一个核心问题是如何在引文网络中识别出最重要或最突出的节点。这一章重点关注引文网络中节点重要性的评价方法,不仅考虑网络的本地结构而且考虑网络的全局结构。例如,不仅仅计算某一种期刊被引用的数量,还要考虑引用源于哪种期刊?这些引用期刊自引的频率如何?研究方法与用于Web页面排序的著名的PageRank方法关系密切。并且,本章提供了一个案例,说明如何基于从Web of Science数据库中的数据生成的引文网络来计算PageRank。Sci2工具用于创建引文网络,MATLAB用于PageRank计算。
第二部分是“科学系统”,也包括四章。第5章是“系统生命周期及其与三股螺旋的关系”。本章从大学、企业、政府部门间的动态连接的角度来研究复杂系统的生命周期。企业和政府依赖教育;大学依赖企业来激发其研究与开发,支持一些基础研究和大量的应用研究。政府依赖企业来定位经营需求并提供产品,大学则为政府和企业提供了解决问题及问题解决的环境。本章分析复杂系统的生命周期并提供了一些实例。在多维环境下分析这些例子,从需求定义出发直到系统的衰退和废弃来研究生命周期管理的项目和程序。在解释这些例子的过程中,介绍了收集、分析和处理这些数据的技术研究的进展。第6章是“空间科学计量学与学术影响:近期研究、工具及方法综述”。这一章在标准化文献检索的基础上系统地综述了最近几年(2008年以后)空间科学计量学的贡献,集中关注以下几个方面:学术影响力的空间因素,特别是出版物和引用影响的空间分布,以及协作中的空间偏好影响和引文影响力的移动性。讨论了近来用于空间计量数据分析和可视化的工具和方法,并展望了未来的研究方向。第7章是“科研人员发表模式及其在作者消歧中的应用”。近年来,越来越需要更高级的文献计量指标来评价个体科研人员和科研团队,其中,作者消歧的问题急需解决。本章使用加拿大魁北克省(Que'bec,QC)所有科研人员包括同名作者(N=13 479)的文献数据,对科研人员文献发表模式中的规律进行了研究。结果表明,这些模式可用于自动判别文献的归属作者和剔除同名作者发表的文献。另外,发现了两个层次的文献发表模式:①科研人员层次;②学科层次。总体而言,基于这些模式构造的算法为13 479个研究人员中的11 105个(82.4%)提供至少一篇文献的指派信息,误判率较低(3.2%)。第8章是“知识整合与扩散:多样性和连贯性的度量和可视化”。本章提出了一个基于概念多样性和连贯性来分析知识整合与扩散的框架,并提供了有助于读者理解的可视化过程。相比以前的方法,该框架的新颖性主要是包含了类别间的认知距离(或相似度),这些类别表征了研究中的知识主体。另外,本章简要地讨论了可视化认知维度的不同方法。
第三部分是“统计与基于文本的方法”,同样包括四章。第9章是“信息计量研究中的受限因变量模型和概率预测”。本章对二分变量、有序变量和计数资料回归模型等受限因变量模型在信息计量学文献中的使用情况进行了综述,并介绍了这些模型的潜在假设及其在预测研究中的潜力。最后,通过对示例数据集中引文量决定因素的分析,对这些模型进行了演示。此外,本章还展示了如何使用统计学软件STATA对上述模型进行估计。第10章是“利用Stanford CoreNLP软件进行文本挖掘”。文本挖掘技术已经广泛应用于分析各式各样的文本,并为大规模的文献主题分析提供了一种可能。作为现有的文本挖掘工具之一,Stanford CoreNLP分析器具有可扩展性和丰富的功能。本章选择此工具进行文献计量学研究。该工具以原始的英文语言文本作为输入文件,并输出一个完整的文本分析和语言学注释结果,以供更高级别的文本分析。最后,选择2012年发表于Journal of American Society for Information Science and Technology(JASIST)上的177篇文章的题目和摘要作为数据集,利用Stanford CoreNLP对上述论文所涉及的概念提供一个概述分析,并构建该年的总体研究趋势。第11章是“主题模型:使用主题滤镜评价学术影响力”。主题模型是一种被广泛接受的、非监督的学习方法。通过主题模型算法,研究人员可以对目标文献主题进行概述、探测以及可视化展示。一般而言,主题模型算法以一个文档集合为输入文件,然后发现一系列在文档集合中讨论的重要主题,以及每一篇文档涉及该研究主题的程度。本章将演示如何应用开源主题模型工具对学术论文集进行主题分析。同时,本章还将演示如何使用主题模型的分析结果进行文献计量分析。第12章是“机构间引文影响力差别的本质与实际意义:运用效应量与可信区间分析百分位数的指南”。本章讨论百分位数的统计分析问题。与基于平均值的指数(相对引文率)不同,百分比很少受引文偏态分布的影响。通过某一文献的百分位数能够看出,在同一发表年与同一学科中其他相似文献相比,该文献的引文影响力有多大。然而,百分位数分析往往没有以最有效、有意义的方式呈现。凭借Cumming的著作(《理解新的统计学:效应量、可信区间及Meta分析》,伦敦:Routledge,2012),本章展示了效应量(如,Cohen's Statistic)及可信区间检验如何帮助我们清晰地理解引文影响力差别。
最后一部分是“可视化”,包括两章。第13章是“文献计量网络的可视化”。本章介绍文献计量网络的可视化这一话题。首先,讨论一些经常研究的文献计量网络类型(即引文网络、同被引网络、耦合网络、关键词共现网络以及合著者网络),以及三种很流行的网络可视化方法(即基于距离的、基于图的和基于时序的可视化方法)。其次,对几种用于文献计量网络可视化的工具进行了概述。在本章的后半部分重点介绍两个软件:VOSviewer和CitNetExplorer,讨论在这些软件中如何使用相应技术创建、分析以及可视化展现文献计量网络。最后,总结文献计量网络可视化的局限性及合理使用方法,并对文献计量网络可视化的研究现状及未来发展前景进行了概述。第14章是“可复制的科学学研究”。文献计量学和科学计量学的许多研究是利用专有的数据集和工具开展的,因此如果其结果不可复制,则操作起来会很困难。本章首先对采用常用数据格式开展科学学研究的免费工具、软件库以及在线服务进行了综述。随后,我们介绍了即插即用式显微镜(Plug-and-play Microscopes)方法,它使用OSGi行业标准来指导模块软件的设计,即各种“即插即用”的数据读取、预处理及分析算法,也包括可视化算法及工具。并举例论证开源科学工具如何从不同分析层次——微观到宏观回答时间(何时)、空间(何地)、主题(什么)以及网络(谁)等方面的问题。使用Sci2工具,本章讲解了如何进行Burst检测;如何在地理空间图谱上叠加数据;如何绘制科学图谱;如何计算各种网络属性。本章通过研究一组物理学者在时间、空间、主题及合著网络的研究轨迹来举例说明Sci2工具的使用。最后,本章展示了如何用“即插即用显微镜”为现有工具建立连接,以使它们联合起来执行更高级的分析及可视化工作流程。
本书由西安电子科技大学经济与管理学院的窦永香博士、山西医科大学管理学院的于琦博士主持翻译,原作者为Ying Ding(美国印第安纳大学)、Ronald Rousseau(比利时鲁汶大学)和Dietmar Wolfram(美国威斯康星大学密尔沃基分校)。具体分工如下:第1~5章由窦永香翻译,第6章由陈姝、窦永香翻译,第7章由张青杰、窦永香翻译,第8章由王帮金、窦永香翻译,第9~14章由于琦翻译。在翻译过程中,Ying Ding博士一直密切关注,并在我们遇到困难时给予有力的支持和帮助。另外,本书的出版得到了丛书主编和武汉大学出版社的支持和帮助。本书得到陕西高校人文社会科学青年英才支持计划(ER42015060001)、中央高校基本科研业务费专项资金(BDY241413)、国家自然科学基金面上项目(71573162)、山西省高等学校创新人才支持计划(晋教科[2015]3)的资助。在此,我们谨向以上单位和个人表示最诚挚的谢意!
我们相信:以数据为核心,以方法和工具为手段,学术影响力测评将走向科学化!
由于水平所限,书中不妥之处乃至错误在所难免,恳请读者批评、指正。
窦永香、于琦
2015年12月26日