7.3.1　实验设置

2025年09月21日

版权

7.3.1　实验设置

1.数据集

利用爬取的200万条新浪微博作为实验数据，进行如下预处理：移除重复的和非中文的微博；分词、去除停用词；移除出现次数少于8次的词；移除少于3个词的文档。处理后的数据包含40万条微博。时间间隔按天进行设置。

2.评价指标

突发话题发现新颖度（Novelty）：在每个时间片获取的来自主题Z的词，并构建关键词集合，W（t）和W（t-1）分别为两个相邻时间片的词对集合，突发话题新颖度的计算如式（7-15）所示：

pagenumber_ebook=123,pagenumber_book=110

其中， pagenumber_ebook=123,pagenumber_book=110 表示数据集中的词的数量，T表示包含在主题中的词的数量。

3.对比算法

采用当前主流的突发话题发现算法Online LDA、Twevent、BBTM、BEE作为对比算法。

4.参数设置

时间片设置为1天，设置 pagenumber_ebook=123,pagenumber_book=110 。