9.3.1 实验设置
1.数据集
新浪微博的跨媒体数据:利用从新浪微博采集的跨媒体突发话题数据,包含了微博的文本数据、图像数据、用户及用户关注者数据。采集了10个微博突发话题数据:“昆明火车站事件”“于田地震”“天津仓库爆炸”“湖北洪水”“北京老虎咬人”“外滩踩踏”“东方之星客船倾覆”“山西京昆高速交通事故”“毒疫苗”和“银川纵火”,总计35万条新浪微博数据。由于采集的微博数据混合了大量与话题无关的信息,因此,利用基于稀疏主题模型的在线社交网络突发话题发现算法(SBTD)处理获取的话题信息,得到高质量的突发话题信息,选取文本-图像对来构造实验数据集,从获取的每个话题数据中挑选符合该话题的3 000张图像,从用户和用户关注者发布的文本中选择与图像对应的4~8条文本内容来构建文本-图像对。从获取的35万条微博数据中选择2 000条文本-图像对信息作为实验数据。针对每个不同的话题随机选取1 000条文本-图像对作为训练集,剩余的数据用于测试。
2.参数设置
由于实验采用了新浪微博跨媒体突发话题数据和公共数据集,且两个数据集具有不同的属性信息,因此,对两类数据集的文本特征提取方式略有不同。对于新浪微博跨媒体突发话题数据集中的文本内容,利用基于用户聚合的在线社交网络用户搜索意图理解与挖掘算法(UAIU)获取文本特征,以充分地理解用户的搜索意图和解决社交网络上下文稀疏性问题。由于两个公共数据集不包含用户属性,因此,对于公共数据集,利用词嵌入方法来提取文本特征。对于图像特征,两类数据集的提取方式相同,均采用VGG-19作为图像特征。在训练过程中,对于数据集,batch的大小设置为64。损失函数的参数κ、μ和ν分别设置为0.01、0.1和1.0。
基于用户搜索意图理解的在线社交网络跨媒体搜索算法(UCMS)中,互补注意力机制由三层前馈全连接神经网络实现。在线社交网络跨媒体对抗学习分别由生成过程和判别过程构成。在生成过程中,通过三层前馈全连接神经网络对图像特征和文本特征进行处理,实现图像特征和文本特征的公共映射,并将原始图像和文本特征投影到公共子空间。通过添加一个全连接层来实现模态分类器。对于判别过程,通过利用带有softmax激活层的三层全连接网络实现。
3.对比算法
为了验证本章提出的基于用户搜索意图理解的在线社交网络跨媒体搜索算法(UCMS)的性能,我们选取6个当前主流的跨媒体搜索算法作为对比算法进行比较。