7.2.1 SBTD算法的研究动机
突发话题发现的研究可以分为两类,一类是基于主题模型及变种方法来发现突发话题,另一类是基于聚类方法来发现突发话题。主题模型方法通过利用LDA等主题模型建模文本信息,并通过聚类等后处理步骤来发现突发话题。然而,这些方法需要烦琐的后处理过程且结果仍然不理想。基于聚类的方式聚类突发话题,这类方法利用突发词聚类来监测突发话题。然而,上述方法仍然无法解决社交网络上下文稀疏性问题,且无法实现突发话题的自动发现。另外,由于突发特征是嘈杂的且分散的,区分两个同时发生的相似的话题对于聚类方法也较为困难。
影响在线社交网络突发话题发现质量和效率的因素包括:社交网络上下文稀疏性问题、烦琐的后处理问题及短文本语义关系学习问题。因此,在实现在线社交网络突发话题发现过程中,利用RNN和IDF学习词关系,构建基于“Spike and Slab”先验的稀疏主题模型建模话题,引入词的突发性作为先验,结合二值开关变量引导话题发现的来源,实现在线社交网络突发话题的自动发现。