1.1 引言
自从亚里士多德提出自然分类法以来,分类和编目就在哲学和科学调查中的知识组织方面发挥着核心作用。自从计算机和信息科学诞生以来,为了跟上我们从科学研究中收集大量数据的步伐,研究者们已经开发出各种不同的自动化方法对数据进行分类。
我们现在所处的是大数据时代,幸运的是我们已经拥有了一些对不同来源的数据进行分类的工具,这些数据可能来自点云、图片、文本(Blei,Ng,Jordan,2003;Kanungo et al.,2002;Ward,1963)和网络。网络的节点和链接尽管简单,却是大量不同来源的交互数据集的有力证明(Barrat,Barthelemy,Vespignani,2008;Dorogovtsev,Mendes,2003;Newman,2010)。例如,代谢途径、蛋白质间相互作用、基因调控、食物链、因特网、WWW网、社会关系和科学协作等只是通过科学研究的网络系统中的一小部分例子。
本章我们主要关注形成社区的网络节点的聚集和所形成社区结构的可视化。在网络科学中,社区指的是内部紧密关联的一组节点。社区发现具有挑战性,近年来,研究者们提出许多针对此难题的算法。我们会在下一节简要介绍一些社区发现的方法。本章也会详细介绍流行的Map Equation Framework的理论背景及如何应用Infomap搜索算法的指南(Rosvall,Bergstrom,2008)。
目前,Infomap的应用快速、准确。它可以在几分钟内把成千上万个节点进行分类,而且在被培育社区的数据合成方面执行效果非常好(Aldecoa,Marín,2013;Lancichinetti,Fortunato,2009)。另外,Map Equation Framework非常灵活,可直接用于综合分析不同类型的网络数据。例如,Infomap不仅能为非定向、定向、非加权和加权网络提供两层、多层和重叠方案,而且可为包含高度有序数据的网络,如记忆网络(Rosvall,Esquivel,West,Lancichinetti,Lambiotte,2013)和复用网络提供方案。
本章内容如下:1.2节介绍网络社区发现的一些背景知识;1.3节解释Map Equation的数学原理和Infomap算法;1.4节以协作网络和文献引文网络作为例子说明如何在Web环境和通过命令行来运行软件。如图1.1展示了大量的从应用中生成的可视化图。
图1.1 Map Equation Framework含有多种分析和可视化大型网络的工具