3.1 引 言
随着社交网络内容的急剧增加,研究在线社交网络跨媒体主题表达算法对于短文本建模、精准搜索以及主题聚类等具有重要意义。基于获取的在线社交网络的跨媒体信息,通过相关的算法对其进行处理和分析,得到有用的文本信息、图像信息以及挖掘其内容所表达的主题,能够为在线社交网络跨媒体搜索提供数据和底层的支持。
社交网络内容十分简短嘈杂,且存在社交网络上下文稀疏性问题,如何有效地解决社交网络上下文稀疏性问题是一个备受关注的挑战;社交网络主题随时间动态变化,如何有效地建模社交网络主题随时间的变化情况,并有效地对主题进行动态表达也是一个重要的挑战。
动态主题模型(DTM)利用时间信息和用户的空间信息来实现社交网络文本的表达。上述方法通过引入社交关系,例如关注关系、内部偏好来改进社交网络主题表达的性能。上述方法需要耗费大量的计算资源,且容易产生过拟合现象。
社交网络的内容也包含了海量的图像信息,对社交网络文本伴随的图像进行主题表达能够有效地提高在线社交网络搜索的性能。基于深层语义的方法主要是基于深度学习方法。然而,这些方法虽然在图像表达上有一定的效果,但面对社交网络图像的复杂环境会遭遇严峻的挑战。主题模型方法存在生成信息弱相关问题,且无法获取到图像深层次的特征。而基于深度学习方法忽略了图像信息的某个中心特征,不能较好地区分复杂图像场景。因此,为了解决上述问题需要研究一种有效的图像主题表达方法。
为了实现在线社交网络跨媒体信息主题表达,本章提出了基于动态自聚合主题模型的在线社交网络文本主题表达算法(SCTE)和基于互补注意力机制的在线社交网络图像主题表达算法(CAIE)。在线社交网络跨媒体信息主题表达算法框架图如图3-1所示。该算法由基于动态自聚合主题模型的在线社交网络文本主题表达算法(SCTE)和基于互补注意力机制的在线社交网络图像主题表达算法(CAIE)两部分构成。
基于动态自聚合主题模型的在线社交网络文本主题表达算法(SCTE)利用构建的动态自聚合主题模型(SADTM)对社交网络文本主题进行建模,有效地解决社交网络上下文稀疏性问题。通过将长文本看作是无序的短文本的分片,SADTM模型在没有任何外部语料库下,能够自适应地聚合短文本为长文本。通过利用先前的主题分布和词分布,获取当前时间片的主题分布和词分布,实现在线社交网络流数据主题的动态表达。
图3-1 在线社交网络跨媒体信息主题表达算法框架图
基于互补注意力机制的在线社交网络图像主题表达算法(CAIE)利用图像的聚焦特征和非聚焦特征的互补性对图像特征进行表达,将目标特征混合到聚焦特征和非聚焦特征来指导和增强图像特征学习,并基于聚焦特征和非聚焦特征建立互补注意力机制,进而提高图像特征的学习效果。融合学习到的聚焦特征和非聚焦特征,实现在线社交网络图像信息的主题表达。