5.3.3 搜索效果实验结果与分析

5.3.3 搜索效果实验结果与分析

基于强化学习的社交网络话题内容匹配算法(MDPMS)在监督学习下对新浪微博内容进行训练,并利用随机挑选的2 000条与社会或国家安全话题有关的新浪微博内容作为查询,以验证在新浪微博内容中搜索一般安全主题内容的普遍性。不同的查询导致不同的搜索结果列表排名,对查询结果计算评价指标的平均值。采用NDCG和MAP作为评价指标来评估前n个搜索结果排名,如表5-4与表5-5所示。

表5-4 基于强化学习的社交网络话题内容匹配算法的NDCG评价

为了验证基于强化学习的社交网络话题内容匹配算法(MDPMS)的搜索效率,我们进行了对比实验。选定的对比算法包括BM25,Aho-Corasick,DSSM,CLSM,Rank Net,List Net和MDPRank。为从算法特性等方面进行实验对比,选定了Aho-Corasick,Rank Net,List Net和MDPRank算法。Aho-Corasick是一种基于特征字典的特征集元素匹配算法;Rank Net是一种基于神经网络学习的搜索匹配算法,该算法用于使用梯度下降法通过概率损失函数训练的面向特征匹配的排名算法。List Net是一种基于排名概率的逐级信息搜索的搜索排序学习算法。MDPRank是基于MDP的信息搜索的学习排名算法。

使用NDCG@5、NDCG@10、NDCG@15和NDCG@20对基于强化学习的社交网络话题内容匹配算法(MDPMS)和其他对比算法对新浪微博内容搜索结果的NDCG性能进行了评价。

基于强化学习的社交网络话题内容匹配算法(MDPMS)优于所选取的对比算法,并在搜索结果的前5,前10,前15和前20排名的NDCG评价全部优于其他对比算法,在总体效果上优于所选取的对比算法。基于强化学习的社交网络话题内容匹配算法(MDPMS)优势在于将NDCG融合并应于用于根据马尔可夫决策过程中的反馈评价定义中,使得在训练阶段的就以获得NDCG为评价的最好反馈为目标,这是基于强化学习的社交网络话题内容匹配算法(MDPMS)方能够发挥出良好搜索性能的关键要素。相反,对比算法过度依据相似性计算和模型的训练过程,并且根据相似度进行静态排序从而产生搜索结果,忽略了搜索结果的构造的过程。

通过MAP@n对前n项搜索结果的均值平均准确率进行了评价,结果如表5-5所示。在搜索结果的前5,前10,前15和前20排名的MAP评价全部优于其他对比算法,在总体效果上优于所选取的对比算法。根据定义,相关内容在搜索结果列表中排名越高获得的MAP评价值越高。实验结果表明,基于强化学习的社交网络话题内容匹配算法(MDPMS)在以新浪微博为实例的社交网络安全话题搜索中取得了良好的相关性评价。

基于强化学习的社交网络话题内容匹配算法(MDPMS)区别于传统网络信息搜索算法,注重对内容语义特征挖掘与搜索结果的构造过程。BM25算法是典型的传统信息搜索算法,但是对于社交网络内容的数据特性缺乏良好的适应性。Aho-Corasick算法是另一种基于特征字符匹配的传统信息搜索算法。由于传统信息搜索算法缺乏对内容本身的深层次挖掘,因此面对语义稀疏性明显的新浪微博社交网络内容未能显示出良好性能。DSSM算法和CLSM算法基于深度神经网络学习语义特征表示与匹配的信息搜索算法,以通过构造潜在语义空间,并利用通用语义特征计算查询相似性来搜索目标内容。

CLSM算法在DSSM算法的基础上进行了改进,将全连接神经网络替换为卷积神经网络。但是两种算法侧重于内容特征的全局语义特征学习与构建,对具有良好表达的在线信息有较好的处理结果和搜索效果,但是对于具有语义稀疏性的社交网络内容缺乏语义噪声鲁棒性。Rank Net算法和List Net算法是分别基于成对学习和列表学习的信息搜索排序等级学习算法。Rank Net算法的本质是依赖带有数据标签的训练数据来进行分类排序学习的搜索模型;List Net算法是一种按列表学习的排名算法,该算法的训练目标是获得更好的搜索指标评价。但是,这种算法很难在没有近似值或界限的情况下执行近似优化,因为大多数搜索评价函数的计算过程为非连续的。实验所采用的另一种对比算法MDPRank同样是一种基于马尔科夫决策过程的信息搜索算法,但是与基于强化学习的社交网络话题内容匹配算法(MDPMS)不同的是,MDPRank采用了策略相关(On-Policy)的策略,该算法将内容本身定义为动作,使得算法优化过程中梯度计算相对复杂。

表5-5 基于强化学习的社交网络话题内容匹配算法的MAP评价

基于强化学习的社交网络话题内容匹配算法(MDPMS)的关键要素包括有效的语义分析、可执行的匹配策略和灵活的排名机制。与传统的在线信息搜索问题不同,进行针对特定话题内容的社交网络内容搜索需要从用户搜索目标出发,立足于充分的内容语义特征分析。其中,充分的内容语义特征分析是构建社交网络特征构建的前提,也是进行进一步特征匹配计算的基础。从社交网络内容信息的数据特征出发,进行有效的语义特征挖掘也直接影响着作为输出端的搜索性能。基于强化学习的社交网络话题内容匹配算法(MDPMS)优势在于将社交网络内容信息搜索定义为一个马尔科夫决策过程,并依赖于深度学习社交网络内容挖掘,同时将社交网络内容挖掘作为动态社交网络内容相关性评价的一部分。从细节上贴合社交网络内容数据特性,从策略上通过智能算法实现与查询更贴合的搜索匹配与排序。通过面向问题细节和过程的算法设计是基于强化学习的社交网络话题内容匹配算法(MDPMS)的关键。