6.3.2 实验一:STS算法与对比算法的话题搜索准确性比较
将STS算法与对比算法在社交网络数据集中进行话题搜索实验,采用搜索准确率和点击率作为实验评价指标。STS算法与对比算法的搜索准确率对比结果如图6-3所示,STS算法与对比算法的搜索点击率对比结果如表6-4所示。
相比对比算法,基于多特征的社交网络话题搜索算法在Top-1、Top-3、Top-5、Top-7和Top-10上均取得了最高的话题搜索准确率。对比算法Hashtag-LDA+EUCF的话题搜索准确率高于Hashtag-LDA算法的话题搜索准确率。Hashtag-LDA算法在实现话题搜索算法时仅利用了用户间的隐式相似性,而Hashtag-LDA+EUCF算法同时结合了用户的隐式相似性与显式相似性。
通过分析EUCF、ECCF与EUCF+ECCF三个对比算法的话题搜索准确率可以发现,EUCF+ECCF算法相比EUCF算法和ECCF算法,取得了更准确的话题搜索结果,验证了将相似在线社交网络消息和相似用户进行结合的有效性。
图6-3 STS算法与对比算法话题搜索准确率比较
对ECCF算法与Word2vec算法的话题搜索准确率进行比较可以发现,Word2vec算法取得了更高的搜索准确率,利用在线社交网络消息间的显式相似性相比利用消息间的隐式相似性可以取得更准确的话题搜索结果。对TOMOHA算法与Hashtag-LDA算法的搜索准确率进行比较发现,TOMOHA算法由于利用搜索项与话题之间的语义相似度对话题进行排序,相比Hashtag-LDA可以获取更准确的话题搜索结果,这是因为Hashtag-LDA对话题标签进行排序时仅考虑了话题的频率,而忽略了话题的语义。实验结果表明利用搜索项与话题之间的语义相关性,相比仅利用话题的热度更有利于提高话题搜索的准确率。
表6-4 STS算法与对比算法的话题搜索点击率@T比较
比较表6-5所示的STS算法与对比算法的话题搜索点击率@1、点击率@3、点击率@5、点击率@7和点击率@10上的指标值可以看出,相比对比算法Hashtag-LDA、TOMOHA、EUCF、Hashtag-LDA+EUCF、ECCF、EUCF+ECCF以及Word2vec,我们提出的STS算法取得了最为准确的话题搜索点击率,这是因为STS算法同时利用了相似消息和相似用户构建了候选话题集,并且在查找相似用户时同时利用了用户间的显式相似性和隐式相似性。此外,STS算法基于查询项与话题之间的语义相关性对话题进行了排序,相比仅根据话题标签热度对候选话题进行排序,可以取得更为准确的话题搜索结果。