6.3.1 实验设置
2025年09月21日
6.3.1 实验设置
1.数据集描述
从新浪微博中爬取社交网络数据集,该数据集包括用户信息、文本信息、话题标签信息。对获取的数据进行预处理:过滤掉转发微博和长度小于5的微博,过滤掉发表微博数量少于3的用户数据,对文本进行分词和去停用词。表6-3是数据集的统计信息。
表6-3 在线社交网络话题搜索实验数据集统计信息
2.评价指标
如果在返回的话题标签列表中,至少存在一个话题标签与搜索内容相匹配,则满足搜索需求的话题标签数量M pr增加1,否则,M pr值不变。用M t表示输入的搜索项的数量,为每个搜索返回T个话题标签,hitate@T用式(6-12)计算:
其中,v a为评价结果的平均数。
如果在Top-k个搜索返回的话题标签中有n个满足搜索需求的话题标签,搜索准确率pre@k由式(6-13)计算:
3.参数设置
将主题数K设置为50,相似的在线社交网络消息数X设置为30,相似的用户数设置为2,超参数α,β,τ分别设置为1,0.01,0.01,平衡参数λ设置为0.7。