7.3.4 实验三:SBTD算法与对比算法的话题发现一致性比较

7.3.4 实验三:SBTD算法与对比算法的话题发现一致性比较

利用中文维基百科作为辅助语料库,设置N的值为10,K值从10到50变化。图7-5所示为SBTD算法与对比算法在不同K值设置下的主题一致性(PMI-Score)实验结果。

图7-5 SBTD算法与对比算法的话题发现一致性比较

SBTD算法的主题一致性结果优于其他对比算法,表明其能够从在线社交网络中学习到更一致的突发话题,这是因为SBTD算法通过RNN和IDF构建权重先验,能够学习到一致的话题,并通过引入平滑先验和弱平滑先验能够进一步聚焦发现的话题。BBTM算法也获取了较好的主题一致性结果,但与SBTD算法相比其效果稍差,主要的原因是SBTD算法通过引入平滑先验和弱平滑先验,能够产生更聚焦的话题。与Online LDA算法相比,BEE算法也取得了较好的主题一致性结果,这是因为BEE算法能够在一定程度上解决社交网络上下文稀疏性问题。Twevent算法表现最差,这是因为Twevent算法仅仅通过简单的突发词聚类,混杂了噪声信息,因而生成了较少的一致性话题。

以下通过直观的定性分析来说明SBTD算法突发话题发现的有效性。从微博中选择两个热点和高频的微博话题标签:“昆明火车站事件”和“马航事件”。这两个事件分别发生于2014年3月1日和2014年3月8日。对于每个话题标签(hashtags),提取包含这些hashtags的微博,并统计词频和归一化。对于每个对比算法,选择发现的结果中最接近话题标签的突发话题。表7-4和表7-5分别列出了SBTD算法和对比算法发现的与话题标签接近的前10个词。

从表7-3的实验结果可以看到,SBTD算法的结果与话题标签内容比较接近。BBTM算法的结果也与话标签内容接近,但包含了如“亲人”“进站”等不相关的词。Twevent算法包含了较多的不相关的词,如“购物”“美食”及“云南”等,这表明基于突发词聚类的突发话题发现算法对噪声数据比较敏感。Online LDA算法的结果包含了较多大众化的词,如“情况”“百货大楼”“晚点”等,仅仅部分词与话题标签相关,表明其获取了较少的一致性主题。BEE算法的结果与Online LDA算法相似,有多个不同的主题词混杂在一起,如“进站口”“手机”“旅游”及“景点”等。

表7-3 SBTD算法与对比算法发现的“昆明火车站事件”的前10个词

从表7-4的实验结果可以看到,SBTD算法的结果接近于话题标签的内容,取得了较好的效果。BBTM算法包含了“俄罗斯”“中国”等其他不相关的词。Online LDA算法与BBE算法的结果包含了多个不相关的词。进一步验证了SBTD算法通过引入RNN学习词对关系,利用平滑先验和弱平滑先验解耦主题的稀疏和平滑有助于提高话题发现的质量,并使得发现的突发话题较为一致。

表7-4 SBTD算法与对比算法发现的“马航事件”的前10个词