2.1 引言
信息计量学从知识和信息的数量方面展开研究,包括诸如引文分析、合作者研究、Web链接研究和文献计量图谱等研究领域。这些领域通常包含了人、文献、社会结构和认知结构间的联系。尽管这些关系能从多种不同角度看待,但是最有前途的方法之一是从网络角度进行分析。
网络的研究正赢得其他不同研究领域越来越多的关注,如物理、生物、计算机科学和社会学。对信息计量学也一样,网络分析不是一种新现象,而是一个核心部分。例如,网络分析早在图的数学研究中被认识,而且有助于更好地理解文献间是如何互相影响的(如引文关系中所反映的)。早期,Pinski和Narin(1976)、Price(1965)、Xhignesse和Osgood(1967)作了重要的标志性的研究。后来的研究扩展了这些开创性工作,研究范围扩大到所有的信息现象。实际上,信息计量学中许多交互性研究都可以被表示成网络,例如,引文网络、合作者网络、Web链接网络和共引网络等。近年来,一些研究还借用了社会网络分析的方法和技术(如,Otte,Rousseau,2002)。
但是,社会网络分析的一篇长综述距离我们太远,我们只简要介绍这一章使用的术语。一个网络或图G=(V,E)包括一组节点或顶点V、一组链接或边E。每条边e{u,v}连接着节点u和v(u,v∈V),连接给定节点v的节点组N(v)叫作它的邻居。紧邻节点v的节点数量(邻居的基数)叫作它的度,表示为|N(v)|。
尽管有时网络被研究者看作是静态的,但大多数社会和信息网络是动态的、易于变化的。例如,在一个期刊引文网络中,新期刊出现、老期刊消失,一本期刊可能开始引用一本以前从未被引用的期刊,等等。一个网络中的这种变化不完全是随机的,几种说明网络如何进化的机制已经被提出。我们指出两个重点:
(1)同配性:指的是演员倾向于和他们相似的演员互相连接(物以类聚)。相似的标准可能不同:种族、性别、年龄、兴趣,也可能是节点度。也有一些网络被确定存在异配性,其节点倾向于和它们不同的节点相连接(异性相吸)。
(2)偏好连接(Barabási,Albert,1999):指的是倾向于和成功的演员建立连接,成功经常用度来衡量。偏好连接是一种自我强化的“富者越富”的机制,因为连接到度高节点的每个节点都增加了所链接节点的度,提升了其对其他节点的吸引力。最终进化为度分布服从幂率定律(正如许多社会网络中看到的)的网络。这种机制与马太效应(Merton,1968)和Price(1976)的“成功孕育成功”准则很接近。
假定我们有在某个时刻Gt的网络快照。给定像同配性和偏好链接这样的机制,Gt要比其他网络更可能发生一些变化。例如,两个有相似社会背景的度高的演员在下一个快照Gt+1建立连接的机会要高于两个不同背景的度低的演员。
链接预测,是关于研究和评价这种直觉的一种更正式或形式化的方式。这种链接预测问题可以具体阐述为(Liben-Nowell,Kleinberg,2007):基于以往或者部分网络数据,一个人能多大程度地预测在网络中哪个链接会建立?可以分为未来链接预测和缺失链接预测。未来链接预测(Guns,2009,2011;Guns,Rousseau,2014;Huang,Li,Chen,2005;Spertus,Sahami,Buyukkokten,2005;Yan,Guns,2014)指的是基于现有的网络快照,预测未来网络快照的链接。缺失链接预测(Clauset,Moore,Newman,2008;Guimerà,Sales-Pardo,2009;Kashima,Abe,2006;Zhou,Lü,Zhang,2009)基于一个不完整的或者受损的网络版本(缺失了某些链接或者保留了虚假链接,例如因为样本或者测量的错误)来预测所有的链接。两种类型使用同样的方法解决。
本章内容如下:2.2节总结链接预测过程及其应用。2.3节介绍了贯穿这章的例子所用的数据集。2.4节介绍了链接预测工具。2.5节展示了如何使用这些工具。最后进行了总结。