5.3 基于网络拓扑和权值的虚拟团伙识别研究

5.3 基于网络拓扑和权值的虚拟团伙识别研究

在网络舆情研究中,用户网络、媒体网络、词项网络等很多网络中的节点都会呈现出一定的“簇状”,如图5-8所示(王晰巍等,2021)。另外,用户网络等的关系权值也具有很好的利用价值(顾秋阳等,2020;魏静等,2020)。

图5-8 用户网络中的“簇”

一般地,网络拓扑结构都复杂异常,无法仅靠人力来完成,因此研究者不得不借助于软件来进行分析。用于网络分析的软件较多,知名的有Pajek、Ucinet(附有Netdraw)、Gephi、NetMiner等。

不过,在某些集成度要求比较高的分析场合,若网络分析需要使用如上软件来完成,则会极大地影响整个系统的自动化程度。因此研究者在开发集成一体性的系统时,需要自行设计并开发相关的分析功能。供用户自行编程控制的网络分析组件较多,较为知名的有igraph、NodeXL等。

本书本并不打算讲解或演示如上软件或者相关组件的使用,而是将重点放在我们的实际研究总结上。由于网络分析涉及多个方面,研究难以面面俱到,下面我们仅介绍网络的精简思路方法及对网络中虚拟团伙的识别研究。

简单来讲,网络就是由点及点之间的连线(常对应某种关系)所构成的图形。若细节一点,点和连线会被赋予相应的数值(或权值),示例网络图如图 5-9所示。

对于网络的精简,一般比较传统而简单的三大主要思路如下。

(1)根据点的性质来精简。按点的性质来精简时,可以继续细分为3类方式。其一是直接根据各个节点的度来进行删减。例如将度小于某个阈值的节点予以删除,由于点的删除,自然同时会引发相应连线的删除。其二是根据两个相邻节点的度来进行精简。例如根据相邻两个节点度的比值,来确定节点的删除。第三种是综合考虑多个具有特定关系的节点与度之间的关系。此时,若要确定某个节点是否要删除,不仅要考虑该节点自身,以及其直接相邻节点,还需要考虑其相邻节点的各级子节点。

图5-9 权值网络图

(2)根据连线的性质来精简。此时研究者除了要决定连线的删除与否,还需要考虑具体的删除策略,即仅仅是断开两个节点间的连线,还是需要删除其中某个节点及其各级子节点。具体可以按照实际需求确定,一般情况下以前者较为常见。与上述类似,按连线性质精简的思路,也可以进行细分。其一是设定阈值,然后根据连线的数值(权值)来确定是否删减。其二是综合考虑连线及相应节点性质以决定是否做删减。

(3)同时考虑点和线的性质。该思路方法多样,此处仅列举一种。记网络中任意两个节点分别为M、N,节点的度量值记为m、n(具体如何度量可能根据具体应用不同而不同,例如可以根据各节点的频次来度量),其间连线的度量值为w(其度量方式同样可以采用符合要求的方式,例如可以用M、N的共现频次),记则剪枝条件为:r<w。

另外,也可以在采用如上思路的同时,采用正向或逆向精简策略,或者也可以采用动态精简策略,即随着精简的进行,网络的拓扑等已发生变化,是否需要在接下去的精简中考虑这些变化。

上述笔者简单列举了网络精简的宏观思路,具体的实施算法往往会考虑更多的要素。此处不再具体展开。下面仅针对我们在网络舆情涨落研究中,对于用户网络中的虚拟团伙识别的一种思路和方法进行介绍。

为了对比,下面首先将采用一个较为简单直接的网络精简方法。例如针对上图 5-9所示网络,设定度阈值为6,对节点度数小于该阈值的节点予以删除,得到的网络如图5-10所示。

图5-10 按度数精简后的网络

我们可以很明显地看出,经过如上删减,网络被精简的同时,网络的骨干节点和架构被保留了下来,这正是在很多应用场合中我们所期望的结果。

接下来再采用连线权值阈值来进行删减。设定连线阈值为5,则删减后的网络如 图5-11所示。

图5-11 按连线权值删减的网络

同前面一样,经过精简,网络的骨干节点和架构同样得以保留。

从如上两种方法我们可以看出,无论采用上述哪种精简方式,最后网络都得到了精简,且保留了网络骨架。因此可以说这两种方法都是有效的网络精简方法。

然而,在某些其他应用场合,我们在乎的不仅仅是骨架。例如在网络舆情的用户网络中,我们不仅关注那些核心Hub节点,同样也关心那些具有一定协同作用的“小”节点群——子群,在此处,我们称之为网络团伙。注意网络团伙不一定对应着现实中的团伙,正如前文所述,虚拟网络空间中的网络用户和现实物理空间中的人不具有一一映射的关系。

那如何发现那些隐藏在庞大的用户网络中的那些团伙呢?不难知道,所谓团伙,一般必定存在较之其他普通节点更为紧密的联系,不过需要注意的是,这里仅仅只是一种相对概念,即“更为紧密”不一定体现为绝对值更大。倘若这些团伙中节点都是Hub节点,那么发现它们也许并不困难,但事实上,很多团伙节点并非传统意义上的Hub节点,并且其中没有哪一个节点可以被归为Hub节点。

经过研究总结,我们提出了一种简易可行的网络中虚拟团伙的识别方法。其建立的假设基础是:团伙内部的连接程度高于其与外部的连接程度。该方法具体内容如下:

记网络中任意两个节点分别为M、N,节点的度量值记为m、n,其间连线的度量值为w。设定阈值为t。采用逆向剪枝策略,即从其子节点开始,并且当符合剪枝策略时,只是断开当前连线,而并非将该节点及其子节点一起删除。则剪枝条件为:

不过上述剪枝条件容易导致度量值较大的节点连接较多的度量值较小的节点。因此可以利用下述方式之一对其进行改进。

①对度量值较大的节点,先按前文方法进行剪枝处理。

②利用线性组合来设定剪枝条件,即条件变更为

③利用乘性组合来设定剪枝条件,即条件变更为

这里以上述方式③为例。设定阈值为0.1,对图5-9所示的网络进行精简。经过上述③中剪枝条件的计算,所得结果如图 5-12所示。

图5-12 网络中的团伙识别

从上图我们可以看出,识别出的团伙有3个。尤其是右下角的小团伙,在前述精简方式下,被部分或全部地删减了。

具体应用示例参见下文,此处不再赘述。