2.1 引 言
社交网络作为当今社会重要的公共信息发布平台,包含了大量的来自社会各界用户所发布的信息,其中包括国外国内新闻等重要信息。随着社交自媒体时代的到来,借助发达的互联网媒体,社交网络已经成为广大用户发表各自所看所听所想内容信息的集散地,这些信息通过文本、图像等跨媒体形式在社交网络空间乃至互联网空间中广泛传播。因此,对跨媒体社交网络安全话题内容获取与处理是进行社交网络分析,并针对社交网络中目标话题内容进行匹配搜索,尤其是针对社交网络文本、图像等跨媒体安全话题内容进行匹配搜索的基础。
社交网络内容获取需要通过模拟登录、页面获取、页面结构分析、任务调度、数据格式化等步骤。需要参考社交网络区别于传统在线媒体的关注与转发机制,需要利用社交网络规则下的用户属性来锁定目标安全话题内容,并在社交网络文本内容、图像内容、评论信息的框架下保存当前目标内容。同时,依据社交网络时间戳和用户签到信息来获取社交网络内容对应的时间和空间地理位置信息。该策略需要在给定目标安全话题内容信息的关键词和时间范围,通过社交网络搜索引擎收集相关的社交网络内容。
为了实现跨媒体社交网络安全话题挖掘与搜索的最终目的,需要对所获取的社交网络数据内容信息进行相关处理。因此,在进行跨媒体社交网络内容获取的同时需要进行社交网络话题分析,并从跨媒体的角度针对所获取数据进行初步挖掘,进行相关安全话题目标下的匹配与搜索测试。针对所获取的社交网络数据内容信息进行处理的目的主要是对社交网络中的跨媒体信息进行语义关联分析,构建用于深度语义学习和表示学习所需要的关联标记。在针对目标话题信息,尤其是社会或国家安全相关的话题信息进行获取过程中,进行跨媒体数据信息相关性分析作为对社交网络安全话题信息内容的初步处理可以提高后续的跨媒体数据信息预处理和目标安全话题搜索的效率。
以新浪微博为例来实现跨媒体社交网络内容的获取,并针对跨媒体社交网络内容数据的关联分析问题,本章提出了一种基于自注意力(Self-Attention)机制的跨媒体社交网络内容关联分析算法(SSCM)和一种社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS),后者用于验证社交网络安全话题跨媒体内容关联分析效果,并将该算法应用于社交网络内容匹配与搜索。跨媒体社交网络内容获取与处理框架如图2-1所示,框架分为三个主要部分:跨媒体社交网络内容数据获取与预处理,跨媒体社交网络内容关联分析和社交网络深度学习搜索特征抽取与匹配。跨媒体社交网络内容数据获取与预处理作为数据来源接口为跨媒体社交网络内容关联分析提供数据支持,社交网络深度学习搜索特征抽取与匹配作为跨媒体社交网络内容关联分析的实际应用,通过具体搜索过程来验证关联分析的有效性。
图2-1 跨媒体社交网络内容获取与处理框架图
跨媒体社交网络内容数据获取与预处理,将所获取的社交网络文本数据信息和图像数据信息分别进行文本嵌入特征表示和图像卷积特征表示,为进行跨媒体社交网络内容关联分析和社交网络深度学习搜索特征抽取与匹配大规模批量运算做准备。
跨媒体社交网络内容关联分析部分基于自注意力(Self-Attention)机制,分别面向文本嵌入特征表示和图像卷积特征表示进行文字关键语义和图像关键语义的分析处理。该部分出发点是针对社交网络文本内容信息和图像内容信息,分别进行语义关联学习,并抽取文本中特定词汇和图像中局部像素所表达的关键语义,结合社交网络内容信息所固有的数据特性来解决社交网络内容语义稀疏性问题,同时针对跨媒体社交网络内容数据预处理中构造的跨媒体特征表示进行重构。社交网络深度学习搜索特征抽取与匹配部分对跨媒体社交网络内容关联分析下构建的跨媒体社交网络内容关联特征表示进行了重构,在重构特征所构成的特征空间中进行了基于深度卷积神经网络社交网络安全话题搜索。
通过跨媒体社交网络内容关联分析和社交网络深度学习搜索特征抽取与匹配,我们提出了一种基于自注意力(Self-Attention)机制的跨媒体社交网络内容关联分析算法(SSCM)和一种社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS),用于解决跨媒体社交网络内容在其独有数据特性下的跨媒体数据信息关联分析与匹配问题。通过跨媒体社交网络内容关联分析和社交网络深度学习搜索特征抽取与匹配,弥补跨媒体社交网络内容的语义稀疏性,在特征关联的基础上突破跨媒体语义鸿沟,最终实现了针对目标内容的跨媒体社交网络内容匹配与搜索。