2.5.2 社交网络深度学习搜索特征抽取与匹配算法实验与分析

2.5.2 社交网络深度学习搜索特征抽取与匹配算法实验与分析

以新浪微博作为具体社交网络实例,所采用数据为表2-1所描述的跨媒体社交网络内容数据集,跨媒体社交网络内容关联分析算法(SSCM)构建了脱离媒体形式的社交网络内容特征表示。数据集中将4类安全事件话题内容视为正例,并包含与这4类安全事件话题无关的反例内容,数据的70%用作训练集,另外30%用作验证集。指标NDCG评价前k个搜索结果的相关性,通过计算搜索结果NDCG评价的平均值,对结果列表相对于查询内容的整体相关性进行评价。

图2-9 图像到文本特征匹配率在NUSWIDE数据集上的评价

实验选用BM25,DSSM,CLSM和Architecture-Ⅱ作为对比算法。BM25是一种进行搜索操作的函数集,搜索过程依赖于每个文档中的特征向量。搜索结果的排名忽略了查询与文档之间的相互关系。DSSM是一种基于深度神经网络模型的信息搜索方法,通过构建连续语义空间提取高维信息表示,从而实现查询特征与目标特征语义相似性计算。CLSM是一种基于卷积神经网络的潜在语义模型,用于通过构建低维语义向量表示来进行内容搜索,是DSSM算法的一种变型。Architecture-Ⅱ算法建立在特征之间的交互空间上。它具有特征融合的特性,为每个特征的个性化抽象保留了空间。

以BM25,DSSM,CLSM和Architecture-Ⅱ作为比较算法在4个评价指标下,即NDCG,MAP,Precision和ERR进行了实验分析。首先,从相应的安全话题事件中随机选定1 000条内容作为查询,分别对表2-1中所描述的4类安全相关事件相关话题内容进行搜索评价。根据具体搜索结果计算了排在前5、前10、前15和前20的搜索结果相对应的NDCG@k、MAP@k和Precision@k评价值。图2-10展示了搜索结果的ERR评价。

图2-10 针对不同安全话题的ERR评价

我们将社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)与对比算法在新浪微博数据集上针对不同安全话题进行了实验,并通过NDCG对实验结果进行了评价。社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)对于所选的4类安全话题,社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)在搜索结果排名在前5、前10、前15和前20的位置上的搜索结果NDCG评价优于所选取的其他算法,相对于对比算法体现了优势,并在总体效果上高于所选取的对比算法。

基于深度学习的搜索算法相对于传统BM25算法表现得更好。出现这种现象的原因是,基于传统BM25算法专注于特征本身,并将内容特征作为独立的个体进行处理,进而在特征表示构建上忽略了原始语义的关联性。社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)还优于其他基于深度学习的搜索算法。这些基于深度学习的搜索算法是在全局语义分析的基础上进行设计并通过全局语义特征表示来进行内容特征匹配运算,形成的语义空间适应于粗粒度的完成语义内容,从而对社交网络内容的语义稀疏性缺乏适应性。

社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)基于从原始内容的局部语义特征来搜索与目标安全主题相匹配的内容特征,更加能够适应以新浪微博为代表的社交网络内容信息的语义特征。在NDCG和MAP评价指标下,验证了将社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)应用于搜索匹配的结果排序时,该算法对关键匹配位置结果能够有效反馈,即可以为用户提供有效的支持。表2-3展示了针对不同安全话题的MAP搜索结果评价。

社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)在意外伤害类事件话题上的NDCG,MAP和准确率上的评价更好,原因是其对以新浪微博为实例的社交网络内容进行局部语义挖掘并以此为依据进行匹配和搜索。通过对微博内容的局部语义挖掘,能够对分布在文本语义特征中的关键语义进行学习,并构造紧致的语义特征表示,这个过程对于应对充满语义噪声的社交网络内容相对有效,更加适合于处理具有语义稀疏性的社交网络内容特征。对比算法从全局语义出发,语义挖掘的粒度相对较粗。社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)针对局部语义的挖掘与学习同样促进了全局语义特征的学习与表示。此外,微博内容的数据特性,也是社交网络内容的共有数据属性,造成了特征表达的语义稀疏性。因此,微博乃至社交网络内容搜索策略的性能取决于处理内容的稀疏语义特性和对其的适应能力,需要针对这种稀疏性进行有针对性的处理,这也是社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)的优势所在。

在选取对比算法中,DSSM算法和CLSM算法分别借助深度神经网络和深度卷积神经网络进行全局语义特征非线性映射,将局部语义特征融合到全局语义特征表示中,使得两种算法在针对相同安全话题内容的搜索评价结果上相差不多。通过训练深度神经网络和深度卷积神经网络,能够对安全话题语义要素进行有效处理,从而能够使得DSSM算法和CLSM算法的网络结构对目标安全话题语义特征进捕捉。意外伤害类安全话题微博文本的数据特性包含大量语义要素,通过预训练深度神经网络和深度卷积神经网络,可以对此类话题语义要素所包含的语义特征进行有效处理,并获得适当的语义特征表示。

基于深度卷积神经网络对这些词汇在嵌入语义空间下的特征进行处理,获得了针对基于局部语义挖掘的特征表示,并进一步进行筛选和匹配,得到的实验结果较其他对比算法在搜索评价指标上均有所提高。

表2-3 针对不同安全话题的MAP搜索结果评价

实验结果的MAP评价与NDCG的评价具有相似的数值变化趋势。但是,由于MAP评价指标与NDCG评价指标的侧重点不同,基于深度卷积神经网络对这些词汇在嵌入语义空间下的特征进行处理,获得了针对基于局部语义挖掘和探索的特征表示并进行筛选和匹配,得到的实验结果较其他对比算法在搜索评价指标上均有所提高。

图2-11中展示了匹配结果数量在前5、前10、前15和前20个排名准确率在不同安全话题中的分布情况。在不同的安全话题中包含不同的语义内容信息,通过不同的局部语义,即分散在微博内容中具有代表性的词汇或者词组决定整段微博内容的具体语义信息。准确率评价数值受到不同内容的语义特征分布影响呈现了不同的变化趋势,如图2-11所示,社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)在新浪微博数据集上的4个安话题话题内容的匹配评价结果在整体水平上好于所选用的其他对比算法,在总体效果上,高于所选取的对比算法。社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)和所选取的其他对比算法在针对意外伤害类安全话题的匹配准确率评价上获得了最好的结果。

图2-11 针对不同安全话题的匹配准确率

图2-11展示了当满足搜索要求时,当前内容排名倒数的期望在恐怖袭击类安全话题、自然灾害类安全话题和医疗事故类安全话题内容上的评价结果。社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)在ERR评价指标上优于其他对算法,总体效果上高于对比算法。但是在意外伤害类安全话题上社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)在ERR评价指标上评分略低于Architecture-Ⅱ。这种现象表明,社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)在搜索过程中能够满足查询第一个内容的排名位置低于Architecture-Ⅱ。社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)表现出了更好的性能。另外CLSM在恐怖袭击类安全话题和意外伤害类安全话题上表现更好,这两种算法在NDCG和MAP两个评价指标上也有类似的情况。原因是恐怖袭击类安全话题和意外伤害类安全话题的相关内容在表达上相对局限,语义特征相对集中使得基于卷积神经网络的全局语义搜索算法在搜索评价上体现了优势。

我们从所选取对比算法的角度结合社交网络数据特性进行了以下分析。BM25基于传统匹配策略无法捕获新浪微博社交网络内容的语义局部特征,对信息内容的语义稀疏性未能有效适应,因此在实验中体现出了劣势。DSSM和CLSM是基于深度学习语义表达的特征匹配算法,模型非常重视上下文全局特征的提取,但是侧重于提取内容整体的全局语义特征。这两种算法由于写作的随意性,内容长度限制和用户表达习惯所造成的社交网络内容语义稀疏性,在新浪微博内容上的实验效果评价不占优势。Architecture-Ⅱ提出了一种基于特征组合的匹配算法,该特征组合的弱点对于新浪微博内容的语义稀疏时的噪声没有很强的鲁棒性。

在以新浪微博为具体实例的社交网络内容下,将社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)进行训练,可以从相关的安全主题中捕获有效的局部语义特征。实验表明,社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)利用特征向量的固有特性,对新浪微博内容中与安全主题相关的内容进行局部语义特征过滤和匹配。该策略有效地适应了新浪微博为具体实例的社交网络的数据特征。

社交网络内容在内容长度有限、用户表达随意等特性下构成了内容语义在特征表达上的稀疏问题。社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)根据基于深度卷积特征构建的局部语义特征来匹配搜索社交网络内容。该算法旨在解决依赖内容特征特别是语义特征的社交网络内容搜索问题。作为信息搜索的重要基础,语义匹配是内容搜索最关键的依据。社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)在局部语义特征匹配上能够适应社交网络内容数据特性进行匹配和搜索。