7.3.5 实验四:SBTD算法与对比算法在话题发现质量上的比较
采用聚类纯度(Purity)和聚类熵(Entropy)作为评价指标来验证我们提出的SBTD算法和对比算法的突发话题发现的质量。聚类纯度(Purity)和聚类熵(Entropy)是两个聚类质量评价方法,其中聚类纯度(Purity)的值越大,表明发现的话题质量越高,而聚类熵(Entropy)越小,表明话题发现的质量越高。
从微博数据集中筛选出高频的话题标签信息,并对筛选后的话题标签进行排序,选择6个话题意义明确,且为突发话题的话题标签作为聚类的类标。从数据集中随机地选择其中1/10的数据,并移除对应的话题标签作为实验的测试集。对于Onlin LDA算法和BEE算法,把发现的突发话题视为一个类别,同时把具体的某个微博d赋值给P(π==1|d)的类。对于Twevent算法计算聚类与微博信息的Jaccard系数,把话题赋值给结果最大的类。设置主题数量从5到30。图7-6和图7-7列出了不同主题数量设置下的聚类纯度(Purity)和聚类熵(Entropy)的实验结果。
从图7-6的结果可以看到,SBTD算法在聚类纯度(Purity)结果上优于其他对比算法,表明SBTD算法能够更加准确地分析出突发话题。BBTM算法也获得了好的结果,比SBTD算法表现稍差,主要是因为SBTD算法利用RNN先验能够提前学习到词之间的关系,并通过逆文档频率(IDF)过滤高频词,能够降低高频词对突发话题发现的影响,通过弱平滑先验能够使主题更加聚焦。与Twevent算法和OnlineLDA算法相比,BEE算法获取了好的话题发现的质量,主要是因为BEE算法能够建模社交网络的时间信息,并结合增量聚类精确地描述和分析突发特征。Twevent算法表现最差,主要是因为Twevent算法仅仅采用突发词信息来描述突发话题,在区分整个微博话题和具有突发特性的突发话题的相似性上存在着较大的困难。
图7-7是聚类熵(Entropy)结果,可以看到,SBTD算法的聚类熵结果明显优于其他基准算法,表明本章提出的SBTD算法能够更加准确地学习话题,能够较好地解释和表示话题。
图7-6 SBTD算法与对比算法的话题聚类纯度比较
图7-7 SBTD算法与对比算法的话题聚类熵比较