2.4.2 社交网络深度学习搜索特征抽取与匹配算法的形式化定义
算法(DCNN-CSTRS)通过深度学习中的深度卷积神经网络,从重构得到的跨媒体社交网络内容关联特征层面上对社交网络内容信息进行了特征抽取与匹配。算法框架图如图2-3所示。社交网络深度学习搜索特征抽取与匹配立足于跨媒体搜索特征公共语义空间,从搜索特征表示上跨过了具体媒体形式对所构建的社交网络内容表示特征进行匹配,从跨媒体社交网络内容关联特征入手,基于自注意力机制构建了跨媒体社交网络内容关联特征。图2-3中,通过卷积运算和池化运算构建了紧致的对应于原始内容的深度学习搜索特征,社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)从宏观算法论的角度阐述面向社交网络内容信息特征表示的处理过程。由于在具体实现过程中,实际的社交网络内容信息来自文本和图像两种不同媒体形式,运算过程中针对图中所展示的关联重构特征参数依据具体媒体形式的不同进行了改变,并得到了理想的结果。
社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)由基于深度学习的搜索特征抽取和基于深度学习的内容匹配两部分组成。基于深度学习的搜索特征抽取包括通过卷积运算抽取的局部搜索特征,并利用这部分局部搜索特征进行与目标相关的搜索特征筛选,再依据查询内容区分相关内容特征和非相关内容特征。在这个过程中借助非线性映射,在softmax分类器上进行与搜索特征相关的内容筛选。
图2-3 社交网络深度学习搜索特征抽取与匹配算法框架图
基于深度学习的内容匹配在有监督学习机制下,通过搜索特征筛选与查询目标内容相关的正例内容特征和不相关反例内容,两部分内容的语义特征同时构成了配对模式(Pair-Wise)特征。通过配对模式(Pair-Wise),将对于查询内容的相关内容特征和非相关内容特征构建正例和反例相对应的训练集。与传统有监督训练算法的不同点在于,将计算所得正例内容特征与查询内容特征的匹配相似度、反例内容特征与查询内容特征的匹配相似度与基于交叉熵损失函数相结合,对正例内容的相关概率和反例内容的非相关性概率进行评价,目的是使得算法对内容特征的相关性更加敏感。
基于深度学习的内容匹配延续了跨媒体社交网络内容关联分析的深度学习特征表示在跨媒体内容信息处理上的思路,通过调整具体运算过程中的超参数,如卷积和尺寸和池化尺寸等超参数,来适应不同媒体形式的输入特征。通过参数控制,在特征融合阶段构造了尺寸相同的融合特征。结合查询内容特征和相关内容特征、非相关内容特征的处理,基于社交网络内容特征表示算法根据不同媒体形式进行参数变化以构造相同尺寸的融合特征。
以下对社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)进行直观描述,对所涉及的运算过程进行形式化定义,定义的社交网络内容特征信息如式(2-17)所示:
其中,M为输入的社交网络内容信息特征表示,由p个特征向量V有序构成。
利用深度学习中的卷积神经网络在搜索特征抽取中局部语义特征表示,针对所输入的跨媒体重构关联特征进行局部搜索特征抽取,该过程形成了相应的局部搜索特征。这些局部搜索特征和对应所包含的语义来自社交网络文本内容中的特定词汇和图像内容中表达了目标话题的像素块。为了提取这些局部搜索特征和相对应的特征模式并生成最终的紧致特征表示,对局部搜索特征抽取中的运算进行了定义。定义面向社交网络内容信息特征表示进行卷积运算的卷积核为f∈R m×n,卷积核与数据特征在卷积运算“*”下得到运算结果向量,运算过程定义如式(2-18)所示:
其中,C_F是社交网络内容信息特征表示的卷积运算输出。在具体运算中,针对社交网络文本内容形式和图像内容形式的不同,来调整卷积核尺寸以保证构造的输出特征尺寸相同。卷积运算接上最大池化层简单定义为F p=Maxpool(C_F),输出最终的深度表示特征F p。
基于改进的交叉熵定义社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)的损失函数如式(2-19)所示:
其中,θ为模型中需要进行优化的参数集合;符号d+为与查询内容特征q相匹配的相关内容特征,d-为与查询内容特征q不相匹配的非相关内容特征;函数P(q,d+)为相关内容特征d+在结果序列中排在非相关内容特征d-之前的概率评价,同理,函数P(q,d-)为非相关内容特征d-在结果序列中排在相关内容特征d+之前的概率评价。以P(q,d+)为例,定义如式(2-20)所示:
其中,h q,d+和h q,d-分别是在结果列表中正例内容所占相关和非相关内容在结果列表中所占比例。模型的损失函数中关键部分为相似度函数S(q,d),定义如式(2-21)所示:
其中,函数nlargest()返回与参数提供概率相匹配的一项,若该项为正例内容特征,则返回参数提供的概率,否则返回0。输入参数Pr(q)定义如式(2-22)所示:
其中,F u p为融合后的匹配特征。
社交网络深度学习搜索特征抽取与匹配算法(DCNN-CSTRS)如下所示。
算法2-2 社交网络深度学习搜索特征抽取与匹配算法
输入:跨媒体社交网络内容重构关联特征
输出:排序后的匹配结果列表
(1)以批处理形式输入查询内容的特征表示和对应的社交网络内容特征
(2)加载预训练好的卷积运算抽取局部搜索特征的网络参数
(3)卷积运算抽取局部搜索特征
(4)通过搜索特征对输入的社交网络内容特征进行筛选
(5)记录当前批次中的筛选结果
(6)重复步骤2至步骤5,直至处理完所有批次
(7)整合所有批次筛选结果
(8)以批处理形式输入融合后的搜索特征和对应的配对模式特征
(9)加载预训练好的匹配相似度判别网络参数
(10)通过匹配相似度判别网络进行匹配特征融合
(11)通过融合匹配特征计算查询内容与社交网络内容之间的匹配相似度
(12)记录当前批次中的匹配相似度
(13)重复步骤10至步骤12,直至处理完所有批次
(14)整合所有批次结果并返回匹配结果列表