2.3.2 跨媒体社交网络内容关联分析算法的形式化定义

2.3.2 跨媒体社交网络内容关联分析算法的形式化定义

为了实现在社交网络中针对相关文本内容信息和图像内容信息进行关联分析处理,并构建跨媒体社交网络内容的信息关联,我们提出了基于自注意力机制的跨媒体社交网络内容关联分析算法(SSCM),算法框架如图2-2所示。我们提出的跨媒体社交网络内容关联分析算法(SSCM)首先对原始社交网络目标安全话题下的原始文本媒体形式数据和原始图像媒体形式数据分别进行自然语言文本嵌入特征表示和图像深度特征表示。社交网络自然语言文本嵌入特征表示和图像深度特征表示在语义标记下,针对不同媒体形式分别进行了表示关联特征学习,并建立跨媒体之间的关联特征表示。因此,跨媒体社交网络内容关联分析算法(SSCM)通过面向跨媒体的自注意力机制进行跨媒体语义关联和特征表示重构,以实现后续的社交网络安全话题跨媒体内容信息匹配搜索。

将跨媒体数据定义如式(2-1)所示:

其中,C为与目标话题相关的社交网络文本信息内容和图像信息内容的统一表示,D为所定用数据域中的话题数量。进一步定义社交网络文本信息内容和图像信息内容的统一表示如式(2-2)所示:

其中,tm表示在第d个话题下的第m个文本话题内容,同理,v n为在第d个话题下的第n个图像话题内容,tm和v n拥有相同的语义话题标签l d。经过预处理阶段,获得了社交网络话题下的文本内容嵌入表示和图像深度特征表示,并作为用于在后续过程中语义关联学习下进一步大规模复杂计算的接口。令X d为监督学习下关于第d个话题跨媒体预处理的表示特征,定义如式(2-3)所示:

其中,为第d个话题下的第m个文本内容信息的自然语言嵌入特征,同理,为第d个话题下的第n个图像内容信息的深度特征,另外,它们拥有共同的语义标签向量y d

图2-2 基于自注意力机制的跨媒体社交网络内容关联分析算法框架图

为了进一步进行相关性最大化学习,同时对表示特征进行挖掘以提取对媒体特征敏感的局部特征,在有监督学习机制下,通过进一步分割并分析不同媒体形式中语义表达相近的部分。以社交网络文本内容信息为例,文本特征进一步分割如式(2-4)所示:

社交网络图像内容信息的深度特征进一步分割如式(2-5)所示:

其中,分别为社交网络内容中第d个目标话题对应文本内容信息的嵌入特征和图像内容信息深度特征的第k个分割块特征。通过特征分割将相同目标话题下的文本嵌入特征和图像深度特征分割为数量相同的特征块。

构造面向跨媒体信息的分析过程如下。定义针对文本嵌入特征和图像深度特征分割块的分析过程如式(2-6)和(2-7)所示:

其中,θt和θv分别为对应的参数矩阵,处理过程分别缩写为

如图2-2所示,对经过分割处理的社交网络文本内容信息嵌入特征和图像内容信息深度特征进行自注意力的局部语义提取,通过面向文本媒体形式函数f t和g t,面向图像媒体形式的函数f v和g v,将原始表示特征转换为表示子空间的特征表示,以文本媒体形式为例,函数f t和g t的定义如式(2-8)和式(2-9)所示:

图像媒体形式的函数f v和g v的定义如式(2-10)和式(2-11)所示:

其中,是对应于文本媒体形式语义探索函数f t和g t的参数向量;是对应于图像媒体形式进行语义探索函数f v和g v的参数向量。如上述内容,两种媒体形式的文本嵌入特征和图像深度特征分别被切割成固定大小的k块,第i个块和第j个块文本嵌入特征之间的关注度计算如式(2-12)所示:

第i个块和第j个块图像深度特征之间的关注度计算如式(2-13)所示:

以文本嵌入特征为例,式(2-12)中表示与文本嵌入分割特征中第j个特征块相对于第i个特征块的注意参数。图像深度特征中的是图像深度分割特征中第j个特征块相对于第i个特征块的注意参数。对于第i个文本嵌入特征分割块的输出特征表示,也就是相对应的语义子空间的特征输出如式(2-14)所示:

对应的图像媒体形式同理,相对应语义子空间的特征输出如式(2-15)所示:

关于话题d的文本最终特征表示为,图像最终特征表示为=。至此,已获得关于话题的跨媒体最终特征表示,为进一步进行社交网络安全话题内容搜索提供了语义空间,同时为目标安全话题内容匹配提供了基础。在目标话题标签下,采用监督学习的机制构建媒体间相似度损失来指导最终生成的特征表示,如式(2-16)所示:

其中,为文本媒体形式嵌入特征相对于第i个话题的语义标签,为图像媒体形式深度特征相对于第j个话题的语义标签,以One-Hot向量的形式表达。当两种媒体形式所对应的话题相同时,即i=j时,则‖2=0。