7.3.1 实验设置

7.3.1 实验设置

1.数据集

利用爬取的200万条新浪微博作为实验数据,进行如下预处理:移除重复的和非中文的微博;分词、去除停用词;移除出现次数少于8次的词;移除少于3个词的文档。处理后的数据包含40万条微博。时间间隔按天进行设置。

2.评价指标

突发话题发现新颖度(Novelty):在每个时间片获取的来自主题Z的词,并构建关键词集合,W(t)和W(t-1)分别为两个相邻时间片的词对集合,突发话题新颖度的计算如式(7-15)所示:

其中,表示数据集中的词的数量,T表示包含在主题中的词的数量。

3.对比算法

采用当前主流的突发话题发现算法Online LDA、Twevent、BBTM、BEE作为对比算法。

4.参数设置

时间片设置为1天,设置