8.3.1 实验设置
2025年09月21日
8.3.1 实验设置
1.数据集
使用爬取的新浪微博数据集作为实验数据,进行如下预处理:删除重复微博内容、分词并去除停用词,删除数量小于3的微博,删除出现次数小于8的词。在预处理后,微博的平均长度为9.17个词,得到包含2 432 376条微博的数据用于实验。数据集的描述如表8-2所示。
表8-2 新浪微博数据集的详细描述
2.评价指标
为了验证基于用户聚合的在线社交网络用户搜索意图理解与挖掘算法(UAIU)的性能,采用主题一致性(PMI-Score)、聚类纯度(Purity)、准确率(Precision)、归一化互信息(NMI)、调整的兰德指数(ARI)及H-score等多个标准的评价指标来评价UAIU算法理解与挖掘用户搜索意图的性能。给定聚类数量Q以及聚类结果输出的类别G,设定A={a 1,…,a k,…,a Q}作为聚类的标准值,B={b 1,…,bl,…,b G}作为聚类的输出结果。在上述评价指标中,主题一致性(PMI-Score)、聚类纯度(Purity)、准确率(Precision)及归一化互信息(NMI)的值越高,表示其方法具有较好的性能。
3.对比算法
采用的对比算法为:LDA、Twitter-TTM、Twitter-BTM、PTM、CSTM和UCIT。
4.参数设置
对于LDA、Twitter-BTM、PTM和CSTM算法,设置超参数α=0.1,β=0.01。由于LDA、Twitter-TTM、Twitter-BTM、PTM和CSTM算法无法建模用户关注者的意图和偏好,引入平均搜索意图分布作为用户的关注者的搜索意图分布,平均搜索意图分布的计算公式如式(8-15)所示:
对于对比算法,采用κu进行用户聚类。设置聚类的数量等于用户主题数量,计算公式如式(8-16)所示: