6.2.1 STS算法的研究动机
2025年09月21日
6.2.1 STS算法的研究动机
我们将现有的在线社交网络话题搜索算法分为三类:基于相似的在线社交网络消息的话题搜索算法、基于相似用户的话题搜索算法以及将两者相结合的话题搜索算法。基于相似在线社交网络消息的话题搜索算法以相似在线社交网络消息中的话题标签作为话题搜索的结果。为了发现相似在线社交网络消息,一些研究者使用TF-IDF(Term Frequency-Inverse Document Frequency)或主题模型进行相似消息的查找。利用TF-IDF进行相似消息查找的方法没有考虑消息的语义。利用主题模型的方法虽然获取了消息的语义,但是由于短文本的语义稀疏性,通过现有主题模型方法得到的语义质量不高。因此,采用上述方法查找到的相似消息相关度低,话题搜索的准确率也受到了很大影响。此外,仅仅使用相似在线社交网络消息实现话题搜索的方法没有考虑用户的偏好,此类算法的话题搜索的准确性有待提高。
实现在线社交网络话题搜索需要解决的关键问题主要包括两个:一是如何构造与用户搜索意图相关的候选话题集,另一个是如何对候选话题集中的候选话题标签进行排序。为了实现精准的在线社交网络话题搜索,我们提出了基于语义学习的在线社交网络话题搜索算法(STS),该算法通过建立基于扩展的用户-标签主题模型UHTME,对社交网络的多种特征进行语义学习。并基于语义学习的结果以及结合用户间显式表示与社交网络消息的向量表示,构造候选话题集。