前 言
在线社交网络是一类可以帮助用户建立在线好友关系网络,并且可以在好友间分享兴趣、爱好、状态和活动等信息的在线应用服务,具有强大的信息发布、传播、获取以及分享功能。现阶段最具代表性的在线社交网络产品国外有Facebook和Twitter等,国内有腾讯QQ、新浪微博以及微信等。有关资料统计表明,全球最大的在线社交网络Facebook注册用户数已突破22亿大关,国内最大的在线社交网络腾讯QQ注册用户数超过8亿,新浪微博注册用户数已超过5亿,微信也拥有很高的注册用户数量,并保持着极高的用户增长率。
随着在线社交网络日益流行并且大量用户持续活跃,在线社交网络积累了大量用户产生的数据,包括文本、图像和视频等跨媒体数据,这些庞大的数据中蕴藏着极为有价值的信息。传统的信息搜索与挖掘技术已经难以满足用户信息搜索与挖掘的需求。因此,社交网络的发展对信息搜索与挖掘技术提出了新的要求和挑战。社交网络搜索与挖掘的出现正是信息搜索与挖掘技术在社交网络中的新发展、新应用。
在线社交网络搜索技术是指以社交搜索引擎技术为依托,通过在线社交网络跨媒体信息的挖掘,将社交网络中的跨媒体信息按照一定方式和逻辑组织起来,并根据社会化用户的搜索意图找出有关信息的过程和技术。针对在线社交网络搜索与挖掘问题,已在世界范围内掀起热潮,我国一些社交网络也纷纷将搜索与挖掘服务作为重要亮点之一,对其关键理论与技术的探索也应势而起。但在目前公开的研究成果中,多数都忽略了社交网络呈现出的在线虚拟社会和线下现实社会相融合的重要特征。在线社会网络中包含了大量时空信息,正是这些时空信息将在线虚拟社会与现实社会紧密联系在一起。因此,深入开展支持时空特性的在线社交网络搜索与挖掘关键理论与技术的研究,具有重要的理论意义和广泛的应用前景。
然而,针对如何利用时空信息,目前社交网络研究中较多的是如何利用显式时空信息,缺乏关于如何获取并有效利用跨媒体数据中隐含时空信息的研究。因此,在大数据时代,面对海量的跨媒体信息,要实现支持时空特性在线社交网络跨媒体搜索与挖掘的智能化、精准化,有必要深入研究以下关键技术:在线社交网络海量跨媒体时空数据的获取与表达技术,跨媒体时空数据的深度语义学习与分析技术,支持时空特性在线社交网络的智能精准搜索与挖掘技术。
在社交网络跨媒体时空数据的高效获取与表达方面,随着社交网络技术和无线通信技术的快速发展以及智能手机等便携式个人智能终端的大量使用,用户可以通过文本、图像、视频等方式来发布和获取各类信息。通过对社交网络中时空信息、社会网络关系等背景信息的获取和表达,对于了解用户对象的环境状态和真实搜索意图具有重要作用。但是,由于个体获取数据的稀疏性和片面性,要获得社交网络对象完整、准确的认识,就需要高效利用群体内所有个体的信息获取能力,并将这些数据进行快速汇总、处理和抽象。同时,通过对大规模个人和群体日常行为以及社会交互时空数据的挖掘与分析,才能高效获取具有应用价值的社群交互时空特征信息。因此,如何实现在线社交网络跨媒体时空数据的有效获取和表达,如何对这些数据的时空特性、社交特性和交互行为等上下文之间的复杂关系建模,是在线社交网络搜索与挖掘技术所需要解决的关键问题之一。
在社交网络跨媒体时空数据的深度语义学习方面,跨媒体信息以及所获得的时空信息,在不同维度上刻画了用户各种网络行为要素,需要经过深度加工才能展现出用户现实物理活动的全貌。因此,系统而深入地研究跨媒体时空数据深度语义学习与分析技术,有助于快速抽取能够反映在线社交网络用户现实物理活动的特征,提高获取用户信息的能力。
然而,传统的语义学习与分析往往依赖于特定情境,缺乏综合利用跨媒体信息中各种维度的情境感知数据,如时间维、空间维、社会关系维等,导致无法识别不同维度数据之间的潜在联系。因此,如何开展支持时空特性和社交特性跨媒体大数据的语义分析与建模研究,如何利用深度学习来跨越跨媒体数据底层特征与高层语义之间存在的语义鸿沟,是在线社交网络搜索与挖掘技术面临的又一关键问题。
在支持时空特性和社交特性的精准搜索与挖掘方面,与传统网络应用形式相比,信息在社交网络中传播的速度更快,覆盖的人群更广,用户的交互也更加频繁,体现出更加复杂的综合特征。因此,需要有效地挖掘社交网络中各种跨媒体时空信息,分析隐含的特有属性,并结合语义推理演算等,才能弥补传统搜索与挖掘在信息关联性等方面的缺陷。不仅实现对跨媒体内容的精准搜索与挖掘,而且实现对特定对象的精准搜索与挖掘。
在线社交网络搜索与挖掘技术面临着如何建立更有效的数据挖掘方法以应对在线网络的大规模化、复杂化等带来的效率和质量问题,特别是增加的时间维度和空间维度信息带来的复杂化问题。因此,研究跨媒体大数据高效率、高质量的数据挖掘技术,构建跨媒体时空数据挖掘体系以解决时空维度带来的复杂化问题;研究支持时空特性在线社交网络的内容搜索技术,建立对象精准搜索模型以提供智能化、个性化的精准搜索结果,是在线社交网络搜索与挖掘面临的另一个关键问题。
在社交网络搜索与挖掘应用方面,目前主要包括大规模异构社交网络数据的整合和索引、社交网络搜索与挖掘在线应用等研究。Facebook、Twitter、新浪微博等国内外主流社交网站均有自己的在线搜索系统,提供用户实时搜索的服务,为人们的社会生活带来极大便利。尤其随着线上线下的联系越来越紧密,社交网络中的搜索与挖掘对象也逐步扩展到与现实生活关联更为密切的地点、人、社交关系和其他社会属性。
本书以在线社交网络搜索与挖掘关键理论与技术为研究对象,系统而深入地研究在线社交网络跨媒体时空信息的获取与表达、在线社交网络跨媒体大数据的语义学习与分析、在线社交网络话题内容匹配与搜索、在线社交网络突发话题发现、在线社交网络用户搜索意图理解与挖掘、在线社交网络跨媒体搜索、支持时空特性和用户搜索意图理解的在线社交网络搜索系统的实现等关键问题。本书的研究对于突破在线社交网络搜索与挖掘等方面的关键问题,具有重要的理论意义和实际应用价值。
本书的组织结构如下:
第1章研究在线社交网络跨媒体时空信息的获取与表达。详细介绍基于时空主题模型的在线社交网络文本信息表达算法和基于目标注意力机制的在线社交网络图像信息表达算法,实现对在线社交网络跨媒体时空信息的获取和表达,为在线社交网络的精准搜索提供基础。
第2章描述跨媒体社交网络内容获取与处理。详细介绍基于自注意力机制的跨媒体社交网络内容关联分析算法和社交网络深度学习搜索特征抽取与匹配算法,实现社交网络文本数据和图像数据的获取,为进行社交网络内容匹配与搜索提供基础。
第3章研究在线社交网络跨媒体信息主题表达。详细介绍基于动态自聚合主题模型的在线社交网络文本主题表达算法和基于互补注意力机制的在线社交网络图像主题表达算法,通过挖掘文本、图像等数据所表达的主题,为在线社交网络跨媒体搜索提供数据和底层的支持。
第4章研究基于时空特性的在线社交网络跨媒体语义学习。详细介绍基于时空特性的在线社交网络跨媒体语义学习算法,实现对在线社交网络的跨媒体数据的语义学习,建立跨媒体数据的公共语义空间,为在线社交网络跨媒体精准搜索提供支持。
第5章研究基于强化学习的社交网络话题内容匹配。详细介绍基于强化学习的社交网络话题内容匹配算法,可应用于对新浪微博等社交网络内容信息的搜索,实现对社交网络搜索中具有语义稀疏性的数据准确匹配以及目标话题相关信息的查询。
第6章研究基于语义学习的在线社交网络话题搜索。详细介绍基于语义学习的在线社交网络话题搜索算法,建立基于短文本扩展的用户-标签主题模型,利用微博中的话题标签进行话题搜索,帮助网络用户精准搜索社交网络话题内容信息。
第7章研究基于稀疏主题模型的在线社交网络突发话题发现。详细介绍基于稀疏主题模型的在线社交网络突发话题发现算法和基于“Spike and Slab”先验的稀疏主题模型,有效地解决社交网络上下文稀疏性问题,从而在社交网络短文本中发现高质量的突发话题。
第8章研究基于用户聚合的在线社交网络用户搜索意图理解与挖掘。详细介绍基于用户聚合的在线社交网络用户搜索意图理解与挖掘算法,建立在线社交网络用户聚合主题模型,降低社交网络中大量通用词对用户搜索意图建模性能的影响,实现在线社交网络用户搜索意图的理解与挖掘。
第9章研究基于用户搜索意图理解的在线社交网络跨媒体搜索。详细介绍基于用户搜索意图理解的在线社交网络跨媒体搜索算法。通过在线社交网络跨媒体对抗学习过程得到跨媒体数据的语义一致性表示,结合相似度计算方法计算跨媒体数据的相似度,实现在线社交网络跨媒体精准搜索。
第10章研究基于生成对抗学习的跨媒体社交网络搜索。详细介绍基于生成对抗学习的跨媒体社交网络搜索算法。利用生成对抗学习来对跨媒体社交网络内容信息进行处理,通过生成对抗学习机制对跨媒体特征表示进行判别监督,实现面向社交网络安全话题内容的跨媒体信息搜索。
第11章研究基于语义学习与时空特性的在线社交网络跨媒体事件搜索。详细介绍跨媒体事件公共语义学习模型和基于语义学习与时空特性的在线社交网络跨媒体事件搜索算法,实现同一尺度下不同模态数据的相似性度量和跨媒体事件的精准搜索。
第12章研究基于语义学习与时空特性的在线社交网络跨媒体搜索系统的实现。该系统可以实现跨媒体时空信息获取与表达、跨媒体语义学习、在线社交网络话题搜索和在线社交网络跨媒体事件搜索等功能,实现快捷方便的社交网络跨媒体搜索。
第13章研究基于用户搜索意图理解的在线社交网络跨媒体搜索系统的实现。该系统能够实现跨媒体信息主题表达、用户搜索意图理解与挖掘、在线社交网络突发话题发现及在线社交网络跨媒体精准搜索等功能,能够方便用户快速准确地搜索社交网络跨媒体信息和话题。
本著作受到国家重点研发计划项目(2018YFB1402600)、国家自然科学基金重点项目(61532006)、国家自然科学基金面上项目(61772083)的资助。