2.3 数据

2.3 数据

我们使用合作者数据[2]来说明链接预测的过程。数据基于合作关系,表示的是信息计量学研究者之间的合作网络。因此,每个节点表示一个研究者,每个链接表示合作。一个链接的权重是两个研究者合作的次数。所有数据可从Thomson Reuters公司的Web of ScienceTM下载。

训练网络在文件inf1990-2004.net(1990—2004年)中,测试网络在文件inf2005-2009.net(2005—2009年)中。这个数据集是Guns、Liu、Mahbuba(2011)和Guns(2011,2012)所用的数据的子集。所有文件都是Pajek格式,能被几种软件包读取并可视化,包括Pajek和VOSviewer。

表2.1总结了这些网络基本的描述统计。从中可见网络的链接是非常稀疏的,不是很好。尽管最大的连通分量远大于第二大连通分量,但都不是一个真实的大连通分量。这些特性可能也会影响链接预测的质量和可行性。

表2.1 样本数据的描述性统计