6.3.1　实验设置

2025年09月21日

版权

6.3.1　实验设置

1.数据集描述

从新浪微博中爬取社交网络数据集，该数据集包括用户信息、文本信息、话题标签信息。对获取的数据进行预处理：过滤掉转发微博和长度小于5的微博，过滤掉发表微博数量少于3的用户数据，对文本进行分词和去停用词。表6-3是数据集的统计信息。

表6-3　在线社交网络话题搜索实验数据集统计信息

pagenumber_ebook=110,pagenumber_book=97

2.评价指标

如果在返回的话题标签列表中，至少存在一个话题标签与搜索内容相匹配，则满足搜索需求的话题标签数量M pr增加1，否则，M pr值不变。用M t表示输入的搜索项的数量，为每个搜索返回T个话题标签，hitate@T用式（6-12）计算：

pagenumber_ebook=110,pagenumber_book=97

其中，v a为评价结果的平均数。

如果在Top-k个搜索返回的话题标签中有n个满足搜索需求的话题标签，搜索准确率pre@k由式（6-13）计算：

pagenumber_ebook=110,pagenumber_book=97

3.参数设置

将主题数K设置为50，相似的在线社交网络消息数X设置为30，相似的用户数设置为2，超参数α，β，τ分别设置为1，0.01，0.01，平衡参数λ设置为0.7。