7.2.5 在线社交网络突发话题发现

7.2.5 在线社交网络突发话题发现

利用基于“Spike and Slab”先验的稀疏主题模型(SRTM)生成社交网络突发话题分布和突发词分布。随机给每个词分配主题,在每次迭代过程中,利用式(7-5)、式(7-6)和式(7-7)采样隐变量,完成多次迭代收敛后,通过学习到的参数值估计其他未知参数。得到的突发话题分布和词分布如式(7-8)、式(7-9)及式(7-10)所示:

结合式(7-9)和式(7-10),得到社交网络突发词分布:ϕk,w=[ϕk,w1,ϕk,w2,…,ϕk,wn]。

假设文档d包含N P个词对,通过最大似然估计方法计算P(wd j|d),如式(7-11)所示:

其中,np(w dj)是词对P出现在文档d中的频次。基于式(7-11)可以得出文档d中的突发话题的比例,计算公式如式(7-12)、式(7-13)及式(7-14)所示:

其中,突发话题分布θ和词分布ϕ通过模型采样计算得到。