6.3.4 实验三:STS算法与对比算法的搜索效率比较

6.3.4 实验三:STS算法与对比算法的搜索效率比较

研究STS算法的话题搜索效率,实验三对STS算法与话题搜索对比算法的运行时间对比。从图6-1的STS算法总体框架图可知,STS算法的运行时间包括两部分:候选话题标签集的生成和基于语义相关性分数的话题标签搜索。从式(6-11)中可以发现,搜索时间主要受主题数量和候选话题标签集的大小影响。由于相似用户和相似在线社交网络消息的数量均会影响候选话题标签集的大小,在本节中,将分析STS算法在三种因素时的效率:主题数量K、相似在线社交网络消息数量X和相似用户数Y。实验结果如图6-5所示。

从图6-5(a)中可以发现,STS算法的话题搜索的时间远小于TOMOHA算法的话题搜索时间,在不同的主题数下平均节省0.026 s。

由图6-5(b)可知,STS算法和Word2vec算法的运行时间相似,两者均比EUCF+ECCF算法花费更少的时间,这是因为首先Word2vec算法时间主要消耗在查找相似在线社交网络消息中,该过程类似于在STS算法中生成候选话题标签集的过程。其次,EUCF+ECCF算法基于TF-IDF机制查找相似在线社交网络消息,相比Word2vec算法和STS算法中嵌入向量表示会花费更长的时间。从图6-5(c)中的实验结果可以发现,STS算法的运行时间略大于Hashtag-LDA+EUCF方法(约0.006 s)。

综合以上分析可以看出STS算法除了具有最佳的搜索准确率,相比大多数对比算法(TOMOHA,EUCF+ECCF)具有更高的搜索效率。

图6-5 STS算法在三种因素下话题搜索时间的对比