7.3.2 实验一:SBTD算法与对比算法的突发话题发现准确度比较

7.3.2 实验一:SBTD算法与对比算法的突发话题发现准确度比较

通过利用话题发现准确度指标来验证基于稀疏主题模型的在线社交网络突发话题发现算法(SBTD)发现突发话题的性能。采用手工标注方式标注突发话题发现的准确度。具体规则如下:如果一个话题在当前时间片突然发生,而在先前的时间片没有出现,则该话题被标记为突发话题。相反,如果一个话题包含的词来自不同的主题或者日常交流,该话题被判定为一般话题。如果有超过一半的话题被标记为突发话题,则判定该话题能够被发现。利用前K个词平均准确度P@K作为评价指标评价SBTD算法和对比算法发现的突发话题的准确度。表7-2列出了SBTD算法和对比算法在不同K值设置下的突发话题发现准确度结果。

表7-2 SBTD算法与对比算法的突发话题发现准确度比较

续表

SBTD算法的准确率高于0.8,显著优于其他对比算法。在P@50时SBTD算法突发话题发现的准确度比BBTM算法提高10%,比OnlineLDA算法提高64%,表明通过引入RNN先验学习词关系及引入平滑先验和弱平滑先验解耦主题的稀疏和平滑,有助于提高突发话题发现的性能。当K值设置为10时,SBTD算法的准确率结果稍差,主要是因为主题数量太少,使得主题比较分散。

BBTM算法也获得了较好的准确率,主要是因为BBTM算法通过直接建模双词的生成,能够有效地解决社交网络上下文稀疏性问题。Twevent算法的表现优于Online LDA算法和BEE算法,主要原因是Twevent算法仅仅基于突发词聚类来发现突发话题,使得突发话题较为集中。普通的基于时间的主题模型算法OnlineLDA和BEE表现最差,主要原因是这两个算法无法建模词的突发性,且需要大量的后处理过程,其建模的结果可能混合了多个普通话题。