前言
本专著系统研究了基于网络大数据的网络舆情涨落分析方法。内容方面主要是围绕着网络舆情的涨落研究而系统展开的。具体来说包括以下几个方面。
1.网络舆情的含义和媒体平台特性研究。作为大数据处理的前置环节,结合前人的研究成果和客观实际情况,笔者对网络舆情的含义进行了解读和延展,并对各大媒体平台进行了较为深入的研究,提出了一些新的观点,例如操作代价和操作收益等。
2.网络数据抽取研究。作为大数据研究的基础,自动化的获取和对网络数据的处理是研究者的一种必备技能。因此笔者将深入地研究各类网页的信息提取及结构化处理方法。主要包括基于逻辑链接块的网页正文抽取、多特征融合的网页正文抽取等。
3.网络舆情热点识别研究。舆情研究必须找到研究的对象,因此通过机器自动化识别网络舆情热点就成为舆情涨落研究的基石。网络舆情热点识别最重要的方面之一即文本聚类分析。在该部分我们研究了基于随机n-Grams文本相似度计算的随机策略以及相应的文本聚类方法。
4.网络舆情数据的网络分析及内容分析研究。网络分析和内容分析是舆情研究的两个极其重要的方面。针对这两个方面,笔者在前人研究的基础上做了有益的尝试和探索,并分别提出了基于词项距离的共现分析法和基于网络拓扑和权值的虚拟团伙识别方法。
5.网络舆情的涨落研究。针对舆情的涨落研究,基于前述各个方面的研究,笔者提出了多维度的舆情演化研究范式,并将舆情的研究归结为时间维度、用户维度、媒体维度、内容维度等几个方面。
6.网络舆情的案例研究。在本书的多个章节,笔者利用相关知识,列举了多个应用案例研究。如第3章基于内容抽取的应用案例研究,第5章基于社交网络相关知识的应用案例研究等。
7.网络舆情中形形色色的安全问题研究。在此部分,笔者对网络舆情相关的安全问题从三个方面进行了阐述,分别是网络舆情载体平台的安全问题、网络舆情载体的内容安全问题以及基于网络舆情载体的信息隐藏安全问题。其中网络舆情载体的信息隐藏安全问题,此前在舆情研究中一直没有受到应有的关注。
本书是笔者主持的“教育部人文社会科学研究青年基金项目(项目编号:17YJCZH178):基于社交网络大数据的网络舆情涨落机制研究”的研究成果。因此感谢教育部人文社科基金对我的资助,使得笔者可以潜心地进行项目研究。
另外,基于本项目的研究和积累,笔者申报的国家社科基金项目“基于网络舆情大数据的主流媒体公信力和影响力测度及其建设研究”成功获得立项。由于两个项目在基本技术和数据集上存在一定的重叠,因此本书也是笔者国家社科基金项目的阶段性成果。