6.2.3 基于扩展的用户-话题标签主题模型(UHTME)的建立

6.2.3 基于扩展的用户-话题标签主题模型(UHTME)的建立

1.基于扩展的用户-话题标签主题模型(UHTME)的描述

基于扩展的用户-话题标签主题模型(UHTME)学习在线社交网络多种特征(如话题标签、用户和短文本)的主题语义表示,利用特征的语义表示构造候选话题集,计算候选话题与查询项的语义相关性。UHTME的图模型表示如图6-2所示,在表6-1中列出了UHTME中所使用的符号以及其相应的描述。

图6-2 基于扩展的用户-话题标签主题模型(UHTME)的图模型

基于扩展的用户-话题标签主题模型(UHTME)采用了三种方法有效地克服了社交网络的短文本语义稀疏性,获取了在线社交网络多种特征(如话题标签、用户和短文本)的主题语义。三种方法分别是:采用DREX方法对在线社交网络进行预处理,对短文本进行扩展,引入双词话题模型BTM通过构造双词集合进一步提升语义空间的密度,以及设定同一用户发布的在线社交网络消息共享同一主题分布,实现对短文本的聚合。

表6-1 基于扩展的用户-话题标签主题模型(UHTME)的符号及意义

除上述三种方法外,UHTME还同时建模了用户、话题标签和双词。将话题标签和双词进行关联,将每个话题标签的主题与双词的主题相对应。通过建模用户、话题标签和双词,将在线社交网络特征映射到公共的主题语义空间,获得多种特征的主题语义表示。

2.UHTME的生成过程与推理过程

假设存在K个主题,每个主题包含两个多项式分布:主题-单词分布φW和主题-话题标签分布ϕH,其中W表示单词数量,H表示话题标签数量。当生成微博中的双词时,根据用户-主题分布分配主题,基于主题-单词多项分布φW生成两个单词。话题标签的主题依据双词的主题按均匀分布进行采样。根据采样得到的主题,基于主题-话题标签的多项分布ϕH生成话题标签。

在UHTME中,存在三个观测变量:用户u、话题标签h和单词w。两个潜在变量k和y,分别为单词的主题和话题标签的主题。此外,还包含三个参数θ,φ,ϕ,分别为用户-主题分布、主题-词分布和主题-话题标签分布。UHTME的主要任务是根据观测变量u,h,w评估参数θ,φ,ϕ,并推断潜在主题k,y。利用Gibbs采样,对建立的基于扩展的用户-话题标签主题模型(UHTME)进行推理,UHTME的推理过程如下:

对用户u发布的在线社交网络消息m中的第i个双词的主题k进行采样,采样公式如式(6-1)所示:

式(6-1)为条件概率,计算其相应的联合概率,如式(6-2)所示:

基于式(6-1)和式(6-2)得到UHTME的采样,如式(6-3)所示:

其中,表示用户u的在线社交网络文本中分配到主题k的双词数,表示用户u的第m个扩展后长文本中分配给主题k的双词数,n k,w代表在语料库中分配给主题k的单词w的数量,i表示不包含第i个双词。

对用户u发布的在线社交网络消息m中的第j个话题标签采用式(6-4)对其主题y进行采样:

其中表示用户u的第m个社交网络消息经过扩展后的双词个数,表示分配给主题k的话题标签数,j表示不包含第j个双词。

对基于扩展的用户-话题标签主题模型(UHTME)进行迭代训练,直到其达到稳定状态。通过式(6-5)~式(6-7)得到UHTME的参数,从而学习到社交网络多种特征(用户信息、话题标签信息和单词信息)的语义表示。

利用特征的语义表示构造候选话题集,并计算候选话题与查询项的语义相关性。