7.3.3 实验二:SBTD算法与对比算法的话题发现新颖度比较
设置T的值为10。不同突发话题数量设置下的话题发现新颖度的实验结果如图7-4所示。

图7-4 SBTD算法与对比算法的话题发现新颖度比较
从图7-4可以看到,SBTD算法的话题发现新颖度结果明显优于其他对比算法,尤其当K值较大时,表现较为明显。主要原因是SBTD算法通过混合词对的突发性和“Spike and Slab”先验到模型中,能够更加敏感地感知突发话题。当K值较小时,Twevent算法获得了较好的性能,主要是因为该算法通过突发词聚类来发现突发话题。随着主题数K的增加,Twevent算法的性能快速下降,这是因为随着主题数量的不断增加,发现的话题中混合了越来越多的噪声数据。BBTM算法的结果显著优于Twevent算法,这是因为BBTM算法利用词对来建模突发话题,可以有效地改善处理短文本和发现突发话题的能力。
BEE算法表现优于Online LDA算法,这是因为BEE算法对于监测话题的变化比较敏感,且通过后处理与增量聚类能够准确地感知突发话题的变化和新话题的出现,OnlineLDA算法是一种基于在线推导的话题模型,在发现话题过程中通过相似度计算来发现话题,不能较好地区分突发话题和普通话题。