1.1 引 言
在线社交网络平台中存在大量的时空信息,以新浪微博中的微博消息为例,在一条微博中,除了文本、图像URL以及话题标签等微博内容外,还包括时间、空间和发布该微博的用户注册地等信息。处于在线社交网络中同一地理环境下的用户往往具有相似的关注点,同一用户在同一地理位置环境下的关注点会随着时间的改变而改变,因此不同时空下用户发布和转发的消息所反映的语义不同。获取在线社交网络跨媒体时空信息,提取其中关键的文本信息、时间信息、空间位置信息以及图像信息,并对上述多种信息进行表达,可以为在线社交网络的精准搜索提供基础。
对于新浪微博等不能直接利用接口获取数据的在线社交网络平台,采用关键字匹配对符合条件的微博进行匹配筛选,并获取微博的文本、图像、时间与地理位置等信息。
为了解决在线社交网络跨媒体时空信息表达问题,我们提出了基于时空主题模型的在线社交网络文本信息表达算法(OSNTR)和基于目标注意力机制的在线社交网络图像信息表达算法(IROA)。如图1-1所示为在线社交网络跨媒体信息的获取与表达算法框架图,分为三个主要部分:在线社交网络跨媒体时空信息的获取与预处理、基于时空主题模型的在线社交网络文本信息表达算法、基于目标注意力机制的在线社交网络图像信息表达算法。
图1-1 在线社交网络跨媒体时空信息的获取与表达算法框架图
在线社交网络跨媒体时空信息获取与预处理部分主要阐述了时空信息的获取与预处理方法。采用开源的分布式爬虫获取在线社交网络平台中的文本、图像、时间和空间等在线社交网络跨媒体时空信息。对时间进行归一化,将空间位置信息进行编码,为短文本构建双词集合,对社交网络中的图像进行过滤。
基于时空主题模型的在线社交网络文本信息表达算法(OSNTR)通过建立时空主题模型(STTM),有效地克服了在线社交网络短文本的语义稀疏性。将时间信息与空间信息映射到短文本的主题语义空间中。通过对时空主题模型(STTM)获取时空区域主题分布、主题时间分布与主题单词分布,并基于上述主题分布,得到文本主题语义表示。
基于目标注意力机制的在线社交网络图像信息表达算法(IROA)建立了视觉目标注意力机制,以目标特征指导图像特征生成的过程,通过计算目标特征在不同图像区域上的注意力分布,获取重点突出的高质量图像特征。