6.3.3 实验二:参数变化对STS算法话题搜索准确性的影响

6.3.3 实验二:参数变化对STS算法话题搜索准确性的影响

为了进一步验证本章提出的基于语义学习的在线社交网络话题搜索算法STS中不同参数变化对话题搜索性能的影响,在STS算法的基础上提出了STS的4种变型算法,分别是:STS(M)、STS(U)、STS(UI)和STS(UI)。其中STS(M)算法表示仅利用在线社交网络消息进行话题搜索;STS(U)算法表示仅利用相似用户进行话题搜索;STS(UI)算法表示仅利用相似用户进行话题搜索,且用户间的相似性通过用户的隐式表示计算得到;STS(UE)算法表示仅利用相似用户进行话题搜索,且用户间的相似性通过用户间的显式相似性计算得到。

1.相似消息数X对STS算法话题搜索准确性的影响

为了研究相似消息数对STS算法的话题搜索性能影响,在实验二中以话题搜索点击率作为评价指标,通过实验分析STS算法与STS(M)算法随相似消息数目变化下的搜索点击率变化情况。STS(M)算法是STS的一种变型算法,该算法仅利用了相似消息的话题标签作为候选话题,没有考虑相似用户因素。将相似消息数目X的取值分别设置为10、20、30、40和50,分别记录STS算法与STS(M)算法在不同相似消息数下的话题搜索点击率@5和点击率@10的数值,实验结果如图6-4所示。

图6-4 相似消息数对STS算法的话题搜索点击率影响

STS算法与STS(M)算法的话题搜索点击率@5和点击率@10的取值均随着相似消息数X的变化而变化,两个算法的变化趋势相似,在搜索点击率@10时的变化更为明显。当相似消息数从10增长为20和30时,发现STS算法与STS(M)算法的话题搜索点击率@5和点击率@10均有一定程度的提升。该实验结果表明,增加相似消息数可提高话题搜索的准确性。当进一步增加相似消息数X的值,将其设置为40和50时,STS算法与STS(M)算法的话题搜索点击率@5和点击率@10均有一定程度的下降。这说明当设置过多的相似消息数时会引入无关的话题标签,从而使得话题搜索的准确率降低。相比相似消息数X为10、20、40和50时,在相似消息数X等于30时,STS算法与STS(M)算法的话题搜索点击率@5和点击率@10均取得了最高值,这表明相似微博数X等于30时是最佳参数设置。

STS算法相比STS(M)算法在不同相似消息数时均取得了更高的话题搜索点击率,这说明将相似用户与相似消息进行结合可进一步提升算法的话题搜索准确性。

2.相似用户数Y对STS算法话题搜索准确性的影响

为了研究相似用户数对提出的STS算法的话题搜索性能的影响,在实验二中以话题搜索点击率作为评价指标,通过实验分析STS算法与其变型算法STS(U)、STS(UI)和STS(UE)随相似用户数变化的搜索点击率变化。STS(U)、STS(UI)和STS(UE)三种算法仅采用相似用户的话题标签作为候选话题标签,而没有采用相似的在线社交网络消息中存在的话题标签。三种算法的区别在于STS(U)算法同时利用了用户间的显式相似性和隐式相似性查找相似用户,STS(UI)算法仅采用了用户间的隐式相似性,STS(UE)算法仅采用了用户间的显式相似性。

将相似用户数Y的取值设置依次设置为1、2、3、4和5,分别获取STS算法及其变型算法STS(U)、STS(UI)和STS(UE)在不同相似用户数下的话题搜索点击率@5和点击率@10的取值,实验结果如表6-5所示。

表6-5 用户因素对STS算法话题搜索点击率的影响

从表6-6中的实验结果可以发现,STS算法与其变型算法STS(U)、STS(UI)和STS(UE)随相似用户数变化的点击率变化规律相似。当相似用户数从1增加至2时,上述算法的搜索点击率@5和点击率@10均有一定程度的提升,这说明用户可能对相似用户所使用的话题标签感兴趣,增加相似用户的数量,可以获取更多的候选话题标签,从而可以提升话题搜索的准确性。当将相似用户数从2依次增加至3、4和5时,STS算法与其变型算法STS(U)、STS(UI)和STS(UE)在搜索点击率@5和点击率@10上的取值均有一定程度的降低,这说明太多的相似用户会引入一定的无关话题,从而为话题搜索带来噪声,降低了话题搜索的准确性。从表6-6可以发现STS算法的最佳的相似用户数为2。

基于语义学习的在线社交网络话题搜索算法STS相比其变型算法STS(U)、STS(UI)和STS(UE),在不同用户数下均取得了更高的搜索点击率,STS(U)算法相比STS(UI)算法和STS(UE)算法的话题搜索点击率更高,这说明在查找相似用户时,同时利用用户间的显式相似性与隐式相似性可取得更准确的话题搜索结果。