10.3.2 参数学习实验结果与分析
根据Mini-Max损失中定义的经验值α和β,它们所表示媒体内语义损失值和媒体间相似度损失值相对于对Mini-Max损失函数的贡献权重,这两个经验值可以直接影响跨媒体表示特征训练损失的优化和最终算法的搜索结果。对这两个经验值参数在训练阶段时的变化对搜索结果的影响进行展示。采用MAP作为评价指标,对搜索结果中排在前50的结果进行评价,即通过MAP@50作为衡量经验值对搜索结果影响的依据。由于α和β为经验值,并没有赋值依据,因此采用枚举法分别对α和β赋离散值:0.1,1,10和100,分别在新浪微博数据集、Wikipedia数据集和NUSWIDE数据集上进行实验。在每个数据集上分别进行文本到图像(Text to Image,txt2img)和图像到文本(Image to Text,img2txt)的搜索测试,结果分别如图10-2~图10-4所示。
如图10-2所示,展示了在新浪微博数据集上α和β在不同数值下对搜索结果的MAP@50评价结果,可见图像到文本搜索结果受到的影响相对于文本到图像搜索结果受到的影响要更明显。当β值固定时,文本到图像和图像到文本的搜索结果MAP@50评价数值波动较小。随着经验值α和β的变化,搜索结果MAP@50评价数值波动幅度有所区别。通过实验结果可以说明,在新浪微博数据集上图像到文本的搜索过程更容易受到经验值α和β变化的影响。在图像搜索文本的任务中搜索结果MAP@50评价随α和β变化波动相比于在文本搜索图像的任务中波动更加明显。出现这种情况的原因是在新浪微博数据中,文本内容和图像内容中均存在目标语义特征分散的情况,即在高维特征表示下存在语义稀疏性。另外,由于新浪微博数据集中文本内容和图像内容与标准自然语言语法和高质量图像存在一定差距,造成了文本内容与图像内容的关联性相对模糊。
新浪微博数据集中存在一定的文本内容与图像内容在信息量上的不对等现象。如图10-2所示,在文本到图像的搜索任务中,当α=100且β=10时搜索结果的MAP@50评价获得相对较高的数值;同理,在图像到文本的搜索任务中,当α=10且β=100时搜索结果的MAP@50评价获得相对较高的数值。
如图10-3所示,在Wikipedia数据集上,随着α和β经验值的变化,Wikipedia数据集上搜索结果的MAP@50评价值波动较小。也就是说,α和β经验值对搜索结果的MAP@50评价影响小于其在新浪微博数据集上的对搜索结果的影响。通过对比可以得出,在两个具有不同数据性质的数据集下,α和β经验值对最终搜索结果的MAP@50评价影响不同。对于具有更多语义噪声的新浪微博数据,α和β经验值的变化对搜索结果影响更大。由于Wikipedia数据集具有更紧致的语义特征,使得α和β经验值的变化对搜索结果影响相对较小,从而使得其搜索结果的MAP@50评价值波动较小。
随着α和β经验值的变化,在文本搜索图像任务中的搜索结果MAP@50评价数值整体上高于在图像搜索文本任务中的搜索结果MAP@50评价数值。相似情况也出现在新浪微博数据集上,原因是在两个数据集上,文本特征的语义内容分布于图像内容的语义特征分布不均衡。Wikipedia数据集中的文本内容和图像内容来自在线网络,在文本内容和图像内容的对应关系上与新浪微博数据集存在一定相似性,并且文本内容的构成相对复杂,通过全局语义特征与图像中的部分内容相对应。如图10-3所示,在文本到图像的搜索任务中,当α=1且β=0.1时搜索结果的MAP@50评价获得相对较高的数值;在图像到文本的搜索任务中,当α=0.1且β=0.1时搜索结果的MAP@50评价获得相对较高的数值。
图10-2 在新浪微博数据集上经验值对搜索结果MAP@50评价影响
图10-3 在Wikipedia数据集上经验值对搜索结果MAP@50评价影响
图10-4展示了在NUSWIDE数据集上经验值α和β对搜索结果的MAP@50评价影响。在NUSWIDE数据集上,搜索结果的MAP@50评价随着经验值α和β的变化波动并不明显,展示了与其在Wikipedia数据集上相似的数值变化特点。但是,与在Wikipedia数据集上不同的是在图像到文本搜索结果的MAP@50评价数值高于在文本到图像搜索结果的MAP@50评价数值。出现这种情况的原因在于NUSWIDE数据集中的文本内容短小而明确,相对于Wikipedia数据集和新浪微博数据集中的文本内容简单明了,使得该文本内容的语义特征较为集中明显。在NUSWIDE数据集中的文本内容作为图像内容的语义标签更加体现了NUSWIDE数据集中跨媒体内容下的文本内容与图像内容关联性更强。与在新浪微博数据集和Wikipedia数据集上相同,通过经验值α和β变化对搜索结果MAP@50评价影响可以为经验值α和β的取值做出参考。如图10-4所示,在文本到图像的搜索任务中,当α=0.1且β=0.1时搜索结果的MAP@50评价获得相对较高的数值;同理,在图像到文本的搜索任务中,当α=1且β=1时搜索结果的MAP@50评价获得相对较高的数值。
图10-4 在NUSWIDE数据集上经验值对搜索结果MAP@50评价影响
基于生成对抗学习的跨媒体社交网络搜索算法(CMSAL)依据具体搜索结果的评价动态调节α和β经验值以适应不同的搜索环境。α和β经验值的最终赋值与算法的学习过程密不可分,并根据在具体搜索环境下最优的α和β经验值对训练过程的损失变化进行了分析,包括判别损失、媒体内语义损失和媒体间相似度损失,如图10-5所示。
如图10-5所示,每进行100个批次训练迭代记录一次损失值变化情况。判别损失、媒体内语义损失和媒体间相似度损失在新浪微博数据集、Wikipedia数据集和NUSWIDE数据集上,随着算法训练迭代次数的增加最终都趋于收敛,并且损失值在两个数据集上体现了相似的变化趋势。
三种损失值在社交网络数据集上随着训练批次的进行出现了多次小幅度波动,最终损失值在经过约3 500次训练迭代后的变化趋于平缓,此时算法整体趋于收敛;而在Wikipedia数据集上经过约1 500次训练迭代后的变化趋于平缓,说明算法整体趋于收敛;在NUSWIDE数据集上,三种损失值的下降趋势与变化特点与其在新浪微博数据集和Wikipedia数据集上相似,经过约1 000次训练迭代后趋于平缓,媒体内语义损失和媒体间相似度损失在经过约2 000次训练迭代后趋于收敛,判别损失在经过约3 000次训练迭代后趋于收敛。
图10-5 训练过程中的损失值变化过程
三种损失在新浪微博、Wikipedia和NUSWIDE三个数据集上展示不同的波动变化印证了三种不同数据集的数据特性的重要性,即文本内容和图像内容的质量对语义特征分布的影响,从而形成对算法训练过程的影响。由于新浪微博数据集中的文本内容和图像内容的语义稀疏性使得图10-5(a)中的曲线出现波动,需要经过较多训练批次才能够使算法收敛。相反,Wikipedia数据集和NUSWIDE数据集作为广泛应用的公共数据集具有良好的数据性质,因此在训练过程中损失值体现了相对平缓的损失值变化过程,这也印证了数据集中文本内容和图像内容的数据性质对方法训练的影响。