7.2.6 SBTD算法的实现步骤

7.2.6 SBTD算法的实现步骤

基于稀疏主题模型的在线社交网络突发话题发现算法(SBTD)的算法步骤如下所示。

算法7-1:基于稀疏主题模型的在线社交网络突发话题发现算法

输入:微博短文本数据、超参数α、γ0,迭代次数N l,突发话题数量K

输出:突发话题分布θ,突发词分布ϕ

(1)数据清洗与预处理(删除重复微博和广告数据、分词及去停用词,删除词少于3的微博)

(2)计算权重先验β

(3)根据式(7-4)构建突发词先验

(4)随机初始化微博数据的话题分配

(5)对微博数据提取词对

(6)更新词分配和主题分配计数

(7)重复执行式(7-5)、式(7-6)和式(7-7),当运行稳定后结束

(8)根据式(7-8)得到社交网络突发话题分布θ

(9)根据式(7-9)和式(7-10)得到社交网络突发词分布ϕ

(10)根据式(7-11)~式(7-14)得到突发话题比例