11.2.3 基于联合目标注意力和生成对抗网络的公共语义学习模型的提出

11.2.3 基于联合目标注意力和生成对抗网络的公共语义学习模型的提出

本章建立了基于联合目标注意力和生成对抗网络的公共语义学习模型(OAAL),通过OAAL为在线社交网络跨媒体事件中的图像和文本分别学习映射函数,保持同一事件中跨媒体数据的语义相似性。映射函数既可以保存模态间数据的相似性,也可以保存模态内的相似性,通过学习到的映射函数分别将图像特征和文本特征映射到公共语义空间中。由于两个属于相同事件的样本具有相似语义,因此相同事件数据的两个样本在公共语义空间中相近。如果用“<.>”表示两个样本特征F i,F j的内积,则内积越大,两个样本越相似。样本之间的语义相似性如式(11-1)所示:

其中,σ是sigmoid函数,Fi和F j可以为同一模态内或不同模态内的两个样本特征。

图11-2是基于联合目标注意力和生成对抗网络的公共语义学习模型OAAL的框架图。OAAL模型利用联合目标注意力机制和在线社交网络跨媒体事件GAN网络获取跨媒体数据的公共深度语义表示。其中联合目标注意力机制用于单一模态的特征生成,在线社交网络跨媒体事件GAN网络用于学习跨媒体数据的公共语义。

图11-2 基于联合目标注意力和生成对抗网络的公共语义学习模型

在联合目标注意力机制中,分别采用提出的在线社交网络多特征概率图(MFPGM)模型和VGG-19模型提取原始的文本特征和图像特征。以MFPGM特征和VGG特征作为联合目标注意力机制的输入,利用目标特征计算目标与不同图像区域和不同单词的相关性,对图像特征和文本特征的生成过程进行指导。因此,经过目标特征对文本特征和图像特征的补充,增加了两种跨媒体数据特征之间的关联关系,缓解了跨媒体数据之间的语义鸿沟。

在线社交网络跨媒体事件GAN网络以通过联合目标注意力机制生成的单模态特征为输入,由生成模型和判别模型两部分构成。生成模型的损失函数包含语义相似性损失和事件判别损失,通过构建尽可能完备的损失函数来提高公共语义表示质量。判别模型通过识别事件标签的真实性来进一步提高语义学习能力。通过生成模型与判别模型间的动态博弈过程,学习到在线社交网络跨媒体事件数据的公共语义表示。

1.联合目标注意力机制

采用具有良好性能的结构推理网络SIN来获取目标特征。利用SIN网络提取的目标特征作为连接图像和文本的纽带。通过在图像特征和文本特征中同时引入目标特征缓解在线社交网络跨媒体事件数据间的语义鸿沟。

联合目标注意力机制包含两个部分:文本目标注意力机制与视觉目标注意力机制。其中,视觉目标注意力机制采用目标特征计算目标与不同图像区域的相关性,获取图像在不同目标下的注意力分布。本章提出的图像目标注意力机制的网络参数联合了文本注意力机制,是通过在线社交网络跨媒体事件GAN网络训练而得到的。

在文本目标注意力机制中,采用图像中的目标特征对文本的特征生成过程进行指导。设计了文本目标注意力机制,采用图像中的目标特征对文本特征进行补充,解决了短文本无法反映丰富语义的问题。图像中包含了多个特征,每个特征往往仅与文本中的部分单词相关。给定句子(w 0,w 1,…,w H),通过在线社交网络多特征概率图模型MFPGM提取原始的文本特征。MFPGM特征可以缓解在线社交网络短文本的稀疏性与时空差异性,具有较高的语义表示质量。通过相同目标特征对图像和文本的特征生成过程进行指导,有助于增强跨媒体事件数据的语义关联。

2.在线社交网络跨媒体事件GAN网络的构建

我们从以下三个方面来描述在线社交网络跨媒体事件GAN网络,分别是生成模型、判别模型和对抗学习过程。

(1)生成模型

如图11-2所示,在OAAL模型中,基于在线社交网络跨媒体事件GAN网络的生成模型可以生成跨媒体数据的公共语义表示。以全连接层f c-cr的输出作为公共语义表示,并利用最后的全连接层f c-pl对每个样本特征的事件标签进行预测。为了保证在线社交网络跨媒体事件GAN网络的特征学习能力,在其生成模型中设置了完备的损失函数。该损失函数主要包含语义相似性损失和事件判别损失。通过对两类损失的结合,实现最优公共语义表示的生成。语义相似性损失通过negative-log似然函数进行计算,事件判别损失通过交叉熵进行评估。为了详细介绍生成模型的损失函数,从以下角度对其进行分析:图像路径损失、文本路径损失和跨媒体路径损失。对于图像而言,给定其特征F v和相似度矩阵Sv,为了保持公共语义特征之间的相似性,Fv的negative-log似然函数表示为:

进一步将生成的公共语义表示输入全连接层进行事件标签预测,真实事件标签和生成的事件标签之间的事件判别损失计算如式(11-3)所示:

其中,N表示数据集中的实例数,E表示事件标签的数量,分别是真实事件标签和生成的事件标签。因此,图像特征生成中的总体损失函数如式(11-4)所示:

对于文本数据,给定文本特征F t和相似性矩阵S t,使用J T表明文本特征在表示学习中的总体损失,包括J T1表示生成文本一致性特征的相似性损失和J T2表示事件判别损失。文本特征生成的总体损失如式(11-5)所示:

其中,参数λ是权重系数。在特征生成过程中还考虑了保持模态间的语义相似性。给定图像特征F v,文本特征F t和图像—文本对Svt的相似性矩阵,采用negative-log似然函数表示跨媒体数据之间的损失函数如式(11-6)所示:

(2)判别模型

通过生成模型可以获得每个数据的预测标签。然而,预测标签是基于公共语义表示生成的,预测标签的分布与真实标签分布之间存在一定的差异。跨模态GAN的特征表示能力越强,则生成的公共语义表示质量越高,且预测标签的分布与真实标签的分布越接近。为了进一步提高在线社交网络跨媒体事件GAN网络中生成模型的公共语义学习能力,设计了判别模型。通过在判别模型中判断数据标签的真假(即为真实标签或者预测标签)来进一步提高生成的公共语义表示质量。将预测标签和真实标签同时作为判别模型的输入,以m n记录输入标签是否为真,如果标签是预测生成的则将其设置为0,如果标签是数据集中真实存在的则将其设置为1。判别模型的目标是尽可能准确地区分真实标签(真实数据)和预测标签(生成的数据)。在线社交网络跨媒体事件GAN网络的对抗损失可以定义为:

其中J adv表示用于区分所有数据的标签而产生的交叉熵损失,N为数据集中图像—文本对实例数量,D(.;θD)是每个项被预测为真实数据的概率,L nv,L nt,L n分别表示图像的预测标签,文本的预测标签和第n个实例的真实标签。

(3)对抗学习过程

在定义生成模型和判别模型后,通过联合地最小化生成模型和判别模型的损失来学习跨模态数据的公共语义表示。算法11-1详细地描述了基于联合目标注意力和生成对抗网络的公共语义学习模型(OAAL)的学习过程。

算法11-1:OAAL学习过程

输入:数据集,超参数λ,mini-batch大小Ms,迭代次数N iter

输出:学习到的公共语义表示F v,Ft

(1)对数据集所有数据进行预处理

(2)对下列过程执行N iter

(3)用反向传播算法更新参数θG

(4)

(5)用反向传播算法更新参数θadv

(6)

(7)输出学习到的公共语义表示F v,F t

为了尽可能地保护跨媒体数据中模态内相似性与模态间相似性,生成模型的总体损失可以表示图像路径损失、文本路径损失以及跨模态路径的损失之和,如式(11-8)所示:

生成模型为跨媒体数据建立公共语义空间,并生成正确的事件标签。判别模型区分真实事件标签和生成的事件标签,如式(11-9)所示:

其中,表示参数是固定的。通过迭代地执行随机梯度下降算法和反向传播算法,实现对抗学习。OAAL中在线社交网络跨媒体事件GAN网络的对抗学习过程促使生成过程和判别过程不断改进其性能,直到两者达到平衡状态。对抗学习过程最大限度地消除了在线社交网络跨媒体事件数据之间的语义鸿沟,并生成了公共语义表示。