13.3.1 在线社交网络跨媒体信息主题表达模块

13.3.1 在线社交网络跨媒体信息主题表达模块

在线社交网络跨媒体信息主题表达模块综合了本书提出的基于动态自聚合主题模型的在线社交网络文本主题表达算法(SCTE)和基于互补注意力机制的在线社交网络图像主题表达算法(CAIE)。对数据进行了清洗、中文分词及去停用词、用户预处理及图像预处理等一系列的数据处理工作。将清洗后的数据作为算法的输入,得到社交网络数据的文本主题表达和图像主题表达结果。通过统计微博数量和用户数量,得到微博数据的时间分布,结果如图13-3所示。

图13-3 在线社交网络跨媒体信息主题时间分布

基于动态自聚合主题模型的在线社交网络文本主题表达算法(SCTE)利用文本自聚合方式聚合短文本为长文本表达社交网络文本主题,并利用之前的主题分布、词分布及当前新的文档来得出当前的主题分布和词分布,实现社交网络文本主题的动态表达。图13-4展示的是在线社交网络跨媒体信息主题表达的结果,通过结果的词分布来展示。通过列出主题表达结果的前15个词来描述主题。

图13-4 在线社交网络跨媒体主题表达结果