7.2.2 SBTD算法描述
2025年09月21日
7.2.2 SBTD算法描述
基于稀疏主题模型的在线社交网络突发话题发现算法(SBTD),算法框架图如图7-1所示。在该框架中包括4个过程,分别是数据预处理、基于RNN和逆文档频率(IDF)的词关系学习、基于“Spike and Slab”先验的稀疏主题模型(SRTM)的建立以及社交网络突发话题发现。
图7-1 基于稀疏主题模型的在线社交网络突发话题发现算法框架图
数据预处理主要是将获取的社交网络数据进行数据清洗,删除获取的新浪微博数据中的重复内容,并去除噪声信息,分词、移除停用词等。
基于RNN和逆文档频率(IDF)的词关系学习用于完成微博文档中词对内部关系的学习。通过RNN来学习并存储当前词对与先前词对之间的关联关系,利用逆文档频率(IDF)来降低普通的高频词的影响。在学习的过程中,综合RNN学习到的词关系及IDF的计算结果,构建权重先验β加入SRTM模型,代替传统主题模型中的β先验,使得模型能够有效地学习词对间的内部关系。
基于“Spike and Slab”先验的稀疏主题模型用于建模突发话题,并从社交网络数据中自动地区分一般话题和突发话题。通过引入词的突发性作为先验,并利用二值开关变量来决定突发话题的生成。通过提取词对的生成而不是单个词的生成来学习更多的词共现信息,以解决社交网络突发话题发现过程中上下文稀疏性问题。为了进一步聚焦发现的突发话题,通过“Spike and Slab”先验来解耦发现话题的稀疏和平滑,使其能够发现更为一致的突发话题。
社交网络突发话题发现基于“Spike and Slab”先验的稀疏主题模型(SRTM)的建模结果得到社交网络突发话题分布和突发词分布,通过突发话题分布和词分布得到发现的突发话题。