6.3.1 实验设置

6.3.1 实验设置

1.数据集描述

从新浪微博中爬取社交网络数据集,该数据集包括用户信息、文本信息、话题标签信息。对获取的数据进行预处理:过滤掉转发微博和长度小于5的微博,过滤掉发表微博数量少于3的用户数据,对文本进行分词和去停用词。表6-3是数据集的统计信息。

表6-3 在线社交网络话题搜索实验数据集统计信息

2.评价指标

如果在返回的话题标签列表中,至少存在一个话题标签与搜索内容相匹配,则满足搜索需求的话题标签数量M pr增加1,否则,M pr值不变。用M t表示输入的搜索项的数量,为每个搜索返回T个话题标签,hitate@T用式(6-12)计算:

其中,v a为评价结果的平均数。

如果在Top-k个搜索返回的话题标签中有n个满足搜索需求的话题标签,搜索准确率pre@k由式(6-13)计算:

3.参数设置

将主题数K设置为50,相似的在线社交网络消息数X设置为30,相似的用户数设置为2,超参数α,β,τ分别设置为1,0.01,0.01,平衡参数λ设置为0.7。