6.2.2 STS算法描述
2025年09月21日
6.2.2 STS算法描述
基于语义学习的在线社交网络话题搜索算法(STS)框架如图6-1所示。该算法主要包含三部分:基于扩展的用户-标签主题模型(UHTME)的建立、基于相似用户和相似消息的候选话题集的生成以及基于语义相关性分数的话题搜索。
图6-1 基于语义学习的在线社交网络话题搜索算法(STS)框架图
基于扩展的用户-标签主题模型(UHTME)构建候选话题集,进行话题搜索。对短文本进行扩展,同时引入双词话题模型,有效地克服了社交网络短文本的语义稀疏性。通过UHTME学习社交网络文本主题语义表示、主题用户表示和主题标签表示。根据主题用户表示计算用户间的隐式相似性,完成候选话题集构建。
基于相似消息和相似用户的候选话题集的生成是实现社交网络话题搜索的核心。候选话题集中的话题标签与用户的搜索意图越相关,则搜索的准确率越高。为了获取尽可能相关的候选话题标签,同时利用与搜索用户具有相似性的相似用户和与搜索项相似的相似消息,通过采集相似用户和相似消息中出现的话题标签构造候选话题集。为了查找到准确的相似用户,算法利用了用户间的隐式相似性和显式相似性。为了获取相似的社交网络消息,利用Word2vec得到社交网络消息的分布式向量表示,计算消息间的相似性,实现候选话题集的构建。
语义相关性分数是指用户输入搜索项后,每个候选话题标签可能被返回的概率,每个话题与搜索项之间的语义相关性分数通过用户、话题标签和文本的主题表示进行计算。通过计算语义相关性分数,并基于该分数对话题搜索结果进行排序,返回话题排序列表。