7.1 引言

7.1 引言

自20世纪60年代科学引文索引创建以来,包括后来由Thomson通过Web of Science(简称WoS)在线提供的SCI、SSCI和AHCI三大科学索引,科研人员使用位置(机构、国家等)、期刊、文献和学科领域信息进行了大量大规模的文献计量分析。使用科研人员研究领域所做的分析很少见,而且通常使用的都是科研人员数据的小样本。[2]文献计量分析中的问题正逐渐得到解决,科研人员作为其中一个重要的部分,我们可以对其社会统计属性特征(性别、年龄、学位等)进行分析。几年前,将文献属性与作者联系起来的分析(在文献计量学领域)还没有受到广泛的关注(Enserink,2009)。然而,随着评价科研人员的h指数(Hirsch,2005)及其扩展指标(Egghe,2006;Schreiber,2008;Zhang,2009)的提出,以及为了测量那些名字未出现在文献中的科研团队(校际团队、院系)的科研输出或者测量研究成果对科研人员的科研输出和影响力的影响效果(Campbell et al.,2010),需要更好的文献题录数据编制方法,作者消歧的问题急需解决。

作者层面分析的最大挑战是存在同名作者的现象(或科研人员没有唯一的标识符),这使得将文献归属于确切的作者变得相当困难。在分析中有两个常见的问题(Smalheiser,Torvik,2009):第一,作者有同名的情况;第二,作者在文献中的署名方式多样(是否省略名字缩写、婚前姓等)。而WoS的两个特点又增加了判别归属作者的难度:在2006年之前的文献中,只有作者的姓氏和名的首字母被索引,最多有三个缩写字母。因此,姓氏和名的首字母相同的作者会被分到同一个集合中。例如,John Smith和Jane Smith会被分到同一个字符串Smith-J所代表的集合中。虽然现在WoS对作者的全名进行索引,但也只是针对那些在文献中提供作者全名的期刊。[3]很显然,对于2006年之前的文献,这个问题还没有解决。另外,对于2008年以前的文献,数据库中并没有文献作者与其机构地址的链接。虽然这对于只占少数的独立作者文献分析没有问题,但却给多作者合作文献的分析带来了困难。例如,对于一篇三位作者合作且标署了三条机构地址信息的文献,由于有多种组合方式,所以不可能精确地知道每一位作者的机构从属关系。因此,在标署了麦吉尔大学(McGill University)的文献中检索“Smith-J”时,检索到John Smith,或Jane Smith,也有Joseph Smith,尽管不是来自麦吉尔大学,但与来自这所大学的作者合作的文献都会被检索到(合作者引起的歧义)。目前,学术界对消歧的研究还很缺乏。Aksnes(2008)和Lewison(1996)两人分别对挪威作者的同名情况和名字缩写频率进行了数据编制,但他们并没有直接测试这种文献题录数据编制对科研人员的影响,也几乎没有对科研人员同名情况及其在独立研究者层面对文献计量数据编制的影响相关的信息。

本章采用人工方式对加拿大魁北克省所有科研人员(13479人)[4]及其同名作者的文献进行判别,通过在其中发现的规律解决作者消歧的问题。首先,综述相关研究。其次,阐述科研人员文献发表模式中的一系列规律,以及它们在文献所属作者自动判别中的应用。文中提出了两种类型的文献发表模式:①科研人员过去的文献发表行为及其如何影响后续的行为;②科研人员机构从属信息与其发表文献学科之间的关系。用逆向工程的方式,使用这些模式来自动判别文献所属作者。最后,我们讨论分析误判率和漏判率。