4.2.3 在线社交网络多特征概率图模型(MFPGM)的建立

4.2.3 在线社交网络多特征概率图模型(MFPGM)的建立

给定在线社交网络跨媒体数据中的文本消息m,采用4元组(d,l,t,u)表示,其中,d表示短文本,l表示位置特征,t表示时间特征,u表示用户特征。在线社交网络多特征概率图模型(MFPGM)同时对文本、位置、时间和用户进行建模,获取在线社交网络高质量的文本语义表示。该主题语义表示是在多种特征的共同约束下而学习到的,因此具有较高的质量。

为了进一步提升在线社交网络文本的语义表示质量,引入了双词特征增加语义空间的密度,提出了特殊区域R的概念,用于表示消息之间共有的公共属性。R可以是同一作者,相同位置或相同时间片。当消息具有相同的属性时,该属性可被看作某一特殊区域,具有相同属性的消息被看作属于这一特殊区域,并共享一个共同的主题分布。通过引入特殊区域R,可以将短文本聚合在一起,以解决语义稀疏性问题。

图4-2是MFPGM的图模型,带有阴影的圆圈中元素表示可观测变量。如图4-2所示,在线社交网络多特征概率图模型融合了在线社交网络消息的4个特征:短文本、位置、时间和用户信息,利用这些特征生成高质量的语义表示。由于短文本会导致语义稀疏性问题,采用两种策略来克服语义稀疏性。本章提出了“特殊区域R”概念,将属于同一特殊区域R的短文本聚合为长文本。由于在线社交网络数据具有位置信息,信息呈现区域差异化,因此,选择位置信息“省份”作为共同特征。为了生成更加稠密的语义空间,引入双词模式,并假设在同一上下文中共同出现的双词具有相同的主题。通过双词模型挖掘更丰富的单词间关系,并生成更密集的语义空间。

图4-2 在线社交网络多特征概率图模型(MFPGM)

表4-1是在线社交网络多特征概率图模型(MFPGM)中使用的符号及其相应的含义。

表4-1 在线社交网络多特征概率图模型(MFPGM)的符号及意义

续表

1.在线社交网络多特征概率图模型(MFPGM)的生成过程

假设存在R个特殊区域和K个主题,对于每个特殊区域,采用一个K维向量表示这个区域的主题分布,对于R个特殊区域,形成一个R×K的参数矩阵,表示R个区域的主题分布矩阵,其中每个元素θrk表示将主题k赋给区域r中双词次数。θr是一个K维向量,表示区域r的主题分布。矩阵Φ表示词主题-单词多项分布,每个元素φkw表示从主题k生成的单词w的概率。矩阵S表示主题-用户多项分布,每个元素sku表示从主题k生成的用户u的概率。此外,为了表示主题-时间部分,使用符号Ψ表示主题-时间贝塔分布,每个时刻的取值ψkt表示主题k生成的时间戳t的概率,每个主题时间分布ψk的取值表随时间变化而变化。在线社交网络多特征概率图模型(MFPGM)的生成过程描述如下。

(1)对每个聚合后文档r=1,…,R,根据参数α,抽取文档的主题分布θr~Dirchlet(α)。

(2)对每个主题k=1,…,K,抽取主题-时间分布Beta(ψk),分别根据参数β,σ抽取主题-单词分布φk~Dirchlet(β)和主题-用户分布s k~Dirchlet(σ)。

(3)对文档中的每个双词bi

根据以θr为参数的多项式分布,抽取双词的主题:k~Multi(θr)。

根据以φk为参数的多项式分布,抽取每个单词:w i1,w i2~Multi(φk)。

根据以ψk为参数的贝塔分布,抽取双词的时间戳。

根据以sk为参数的多项式分布,抽取双词的用户信息。

2.在线社交网络多特征概率图模型(MFPGM)的建立过程

MFPGM中具有一个潜在变量主题k和4个参数{θ,φ,ψ,S},每个双词的主题采样公式如下:

在式(4-1)中,i表示该元素除外,Θ表示所有参数。计算参数的联合概率分布,联合概率分布如式(4-2)所示:

在式(4-2)中,分别表示K维、N b维和U维向量。向量的每个值分别表示在文档m中出现的主题k的数量、每个双词分配给主题k的次数,以及每个用户分配给主题k的次数。

结合式(4-1)和式(4-2),得到式(4-3):

迭代执行直到获取收敛结果。通过式(4-4)~式(4-6)估计参数:

式(4-5)中分别表示主题k下的时间均值和方差。

在线社交网络多特征概率图模型(MFPGM)并不能直接得到每条在线社交网络消息的文本的语义表示,因此需要基于上述参数进行推断。以表示第m个在线社交网络消息中文本的主题分布,是一个k维的向量。每维元素表示该文本属于每个主题的概率。由于一条在线社交网络消息的文本的主题分布等价于这条消息中所有双词的主题分布,因此,假定处于时空区域r的消息m包含B m个双词,可以得到消息m中整条文本属于主题k的概率:

其中,θrk表示时空区域r下主题k的概率,w m,i,1和w m,i,1分别表示第m个文档中第i个双词的第1个单词和第2个单词,φk,w表示主题k中单词w出现的概率,表示第m个文本中第i个双词出现的次数。根据式(4-7),得到该文本属于主题k的概率,也即文本—主题分布中第k个元素的取值。依次计算文本不同主题的概率,可以得到在线社交网络消息中文本的主题分布,以及每条在线社交网络消息中文本的语义表示。