2.5.1 跨媒体社交网络内容关联分析算法实验与分析

2.5.1 跨媒体社交网络内容关联分析算法实验与分析

为了验证跨媒体社交网络内容关联分析算法(SSCM)在社交网络安全话题跨媒体内容关联分析上的有效性,采用了常用于验证尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)的匹配率(Matching Rate)作为指标,我们对提出的跨媒体社交网络内容关联分析算法(SSCM)所重构的社交网络安全话题下的跨媒体特征表示进行实验分析。评价指标计算如式(2-23)所示:

其中,matches为高维特征表示的匹配特征点数量。v t和v i是所选择的特征点。需要特别说明的是匹配率是对不同媒体形式表示特征在相同查询内容语义分布下的评估。基于跨媒体社交网络内容关联分析算法(SSCM)在目标查询内容语义分布下的表示特征是影响最终搜索结果跨媒体匹配的重要媒介。通过匹配率可以验证基于跨媒体社交网络内容关联分析算法(SSCM)在跨媒体特征表示上的有效性。我们所采用数据集中的数据为采集自新浪微博跨媒体数据,如表2-1所示。在此基础上为了不失一般性,针对跨媒体社交网络内容关联分析算法(SSCM)的实验引入了公共跨媒体数据集Wikipedia和NUSWIDE。另外,为了保证数据集之间平衡性,我们从表2-1所描述的数据中提取并构造了训练集和验证集。实验所采用数据的具体描述如表2-2所示。

表2-2 社交网络深度学习搜索特征抽取与匹配数据集描述

如表2-4所示,提取的新浪微博数据构建训练集和验证集的分类数量相对比表2-1的所表述的安全事件话题类别不同,原因是在如表2-4中所描述的数据集中多构建了一类与安全事件话题无关的数据类别作为反例。实验中所选用的对比算法为JFSSL、DCCA、CMDN、ACMR和CMGAN。实验过程根据匹配率(Matching Rate)的定义通过分别在新浪微博数据集、Wikipedia数据集和NUSWIDE数据集上进行,从文本到图像和图像到文本两个角度进行匹配。实验结果如图2-4~图2-9所示。

如图2-4所示,跨媒体社交网络内容关联分析算法(SSCM)在取到4个以上特征点时,匹配率优于其他对比算法,并在总体匹配率水平上优于其他对比算法0.1~0.25个值,说明了跨媒体社交网络内容关联分析算法(SSCM)在文本到图像特征关联上的有效性。当所取特征点范围在4个以下时说明未能匹配到有效的文本到图像的关联特征点。但是这一缺陷并未影响到跨媒体社交网络内容关联分析算法(SSCM)的总体水平。

图2-4 文本到图像特征匹配率在新浪微博数据集上的评价

图2-5 图像到文本特征匹配率在新浪微博数据集上的评价

图像到文本特征匹配率在新浪微博数据集上的评价体现了与图2-4相似的数值分布,不同的是相对于文本到图像特征匹配率,当特征点范围取值大于3的时候跨媒体社交网络内容关联分析算法(SSCM)便开始发挥优势。另外,所选取对比算法在图像到文本特征匹配任务上匹配率相对于文本到图像特征匹配任务波动较大,使得提出的跨媒体社交网络内容关联分析算法(SSCM)优于其他算法。出现这个现象的原因是,图像到文本特征匹配任务的特征点选择相对于文本到图像特征匹配的特征点选择更加不均衡。

跨媒体社交网络内容关联分析算法(SSCM)和所选取的对比算法在文本到图像特征匹配率在Wikipedia数据集上的评价总体水平上高于在新浪微博数据集上的评价。原因是Wikipedia数据集中的跨媒体特征分布更加规律。在文本到图像特征匹配率在Wikipedia数据集上的评价上,跨媒体社交网络内容关联分析算法(SSCM)在总体评价水平上优于所选取对比算法。

图2-6 文本到图像特征匹配率在Wikipedia数据集上的评价

图像到文本特征匹配率在Wikipedia数据集上的评价印证了文本到图像特征匹配率在Wikipedia数据集上的评价,同时也体现了图像到文本特征匹配率在新浪微博数据集上评价所表现的趋势,使得4个结果之间相互得到了印证。在Wikipedia数据集上图像到文本特征匹配率结果中,跨媒体社交网络内容关联分析算法(SSCM)在总体水平上优于所选取的其他对比算法0.1~0.25个值。

跨媒体社交网络内容关联分析算法(SSCM)在NUSWIDE数据集上文本到图像特征匹配率评价整体优于所选取的对比算法。通过实验结果可观察到,当所选取特征点数量处于由少变多的过渡阶段跨媒体社交网络内容关联分析算法(SSCM)匹配率较低,然后随着特征点选取数量的增加匹配率而逐渐上升。另外,在NUSWIDE数据集上在所选取对比方法匹配率评价整体优于其在Wikipedia数据集上,原因在于NUSWIDE数据集上文本内容长度较短且语义表述明确,文本内容本身还充当了文本内容和图像内容的语义标签。在这种情况下所构造的高维文本语义特征具有良好的分布性质。

在特征点选择过程中,所选择的特征点具有一定代表性,当特征点数逐渐上升,使得语义特征的代表性由残缺逐渐转向完整,从而使得对文本内容语义分布具有完整体现。这也是跨媒体社交网络内容关联分析算法(SSCM)出现波动的原因。文本内容的数据性质和语义代表性使得所选取的对比算法性能能够较充分发挥,是在NUSWIDE数据集上所选取对比算法匹配率评价相对较优的原因。

图2-7 图像到文本特征匹配率在Wikipedia数据集上的评价

图像到文本特征匹配率在NUSWIDE数据集上的评价。在NUSWIDE数据集上图像到文本特征匹配率评价的数值分布与其在新浪微博数据集和Wikipedia数据集上的数值分布的变化趋势相类似。得益于在NUSWIDE数据集上文本内容的数据性质,以及NUSWIDE数据集的语义关联关系,跨媒体社交网络内容关联分析算法(SSCM)取得了相比于在社新浪微博数据和Wikipedia数据上较高的匹配率评价。虽然在NUSWIDE数据集上文本内容短小且语义明确,但是还是无法避免文本内容语义特征与图像内容语义特征分布不均衡的情况。从图像内容到文本内容的匹配率评价在NUSWIDE数据集上进一步放大了文本内容语义特征与图像内容语义特征分布不均衡的特点,使得传统算法难以发挥其性能,从而在图像到文本语义特征匹配评价上数值较低。

图2-8 文本到图像特征匹配率在NUSWIDE数据集上的评价

通过跨媒体社交网络内容关联分析算法(SSCM)提取的跨媒体语义空间表示特征和对比算法进行比较,所取得的评价类似于图像SIFT特征匹配评价。跨媒体社交网络内容关联分析算法(SSCM)侧重于语义分析和表示,作为可构造的中间结果,相似性匹配的特征表示是关键的。通常,当匹配特征点量的评估范围正变化时,所有选择对比算法的匹配率评估值逐渐增加。跨媒体社交网络内容关联分析算法(SSCM)在前1个到前3个匹配特征的范围的评价值较低。这种情况的原因是局部语义单元由构造表示向量中的特征点组成,需要更多的特征点来构造需要表达的语义特征。当特征点的数量大于3时,跨媒体社交网络内容关联分析算法(SSCM)的优势开始显现。