1.8 本书组织架构
本书撰写的宏观技术思路是:先宏观介绍,再各个展开;先介绍技术与理论,再辅以详细案例讲解。具体而言,本书剩余章节的内容组织逻辑和架构如下所示。

图1-13 全书内容的组织逻辑和架构
各章主要内容及其宏观逻辑关系简介如下。
(1)网络舆情涨落研究之基——网络舆情媒体平台特征研究。该章主要是对平台的特性研究。巧妇难为无米之炊。倘若将网络舆情涨落分析比作为做一餐饭,则数据就是米,数据的产出地就是各类媒体平台。因此涨落分析的首要任务就是对大米的产出平台要足够熟悉,这样才能更好地收割更多更好的大米。本章将对舆情涨落分析数据采集所涉及的几类典型平台做必要的介绍和研究,这与后续数据获取具有紧密的联系。
本章具体的平台类型包括新闻门户、论坛、微信公众号、微博等。
(2)网络舆情涨落研究之源——网络舆情大数据信息的获取与抽取研究。本章主要是研究数据的获取和抽取。上文将数据比作大米,其实将其比作谷物更合理。获取数据即获得“谷物”级数据的过程。此时的数据一般不是能直接分析的对象,一般应将其加工,提取谷物中有用的信息——“大米”。在网络舆情涨落分析中,“谷物”级数据即最原始的Web页HTML代码,对HTML代码可以按需抽取其中的相关“大米”级数据。具体平台类型不同,“大米”也将不同。如对新闻、博客、微信公众号等页面类型,“大米”级数据可能包括标题、正文、发布时间等。并且,正文(新闻页、公众号页、微博正文、论坛各层跟帖帖文等)对很多分析还只是“粗大米”。我们还经常需要从粗大米中提取更为精细的营养成分,如提取其中的各类命名实体、关键词等。
本章具体的研究内容包括提出了一个通用的网络舆情信息获取框架、基于逻辑链接块的网页正文抽取、基于多种特征融合的网页正文抽取等。
(3)网络舆情涨落研究之本——网络舆情热点发现研究。涨落研究的对象是网络舆情,然而并非是无选择性的。实际的涨落分析对象常常是热点舆情,而热点舆情研究的第一要务是从海量的Web数据中发现舆情热点。
本章首先介绍了网络舆情热点形成的一般模式,基于随机n-Grams提出了一种语言无关性的文本相似度计算方法,并对其随机策略进行了较为深入的研究,进而在前述相似度计算方法的基础上提出了一个用于发现舆情热点的快速聚类方法。
(4)网络舆情涨落研究之术——网络舆情大数据内容分析及网络分析。获取了热点网络舆情数据后,其分析方法多种多样。本书重点研究了内容分析和网络分析两种方式。其中内容分析主要研究了词云分析、基于词项距离的共现分析,并且词项距离也是后续文本网络分析的一项基础性改进。网络分析主要是利用社交网络分析的方法分析用户网络,识别其中的虚拟团伙,此外,其另外一个方向即将网络分析应用于词项网络分析。
(5)网络舆情涨落研究之心——网络舆情涨落机制研究。本章主要是关于网络舆情涨落的内在机制研究。基于多年的网络舆情研究及思考,我们探索了网络舆情涨落的关键内在激励要素在于刺激与失真。其中,外部刺激是网络舆情涨落的基本原因,内部刺激则是舆情涨落的关键。舆情信息在传播中的失真是激发生产者和消费者群体创作热情和参与热情的关键,而生产者的创作热情和消费者的参与积极性会进一步导致舆情向更广范围扩展。笔者还总结了网络舆情涨落研究的一般范式、较为细致地阐述了网络舆情在时间维度、用户维度、媒体维度等方面的研究;总结了可能导致舆情暴涨的一些不当做法。
(6)网络舆情涨落研究之花——案例研究。本章精选了若干案例,这些案例都是通过我们采用本书所述的采集和抽取方法来完成数据的采集和抽取的,并采用舆情热点发现方法来发现的一些热点舆情。其中第3章案例“网页内容抽取及分析”包括了命名体识别(地名、行业等)及结构化数据抽取等的应用演示,第5章案例“论坛监测及内容和网络分析”则包含了网络舆情数据更新技术、网页正文抽取技术、网络分析、网络精简技术、网络团伙识别、内容分析等。
(7)网络舆情涨落研究之因——网络舆情中形形色色的安全问题。近些年网络舆情研究之所以吸引了来自学术界、企业界、政府部门的关注,其根本原因在于网络舆情可能导致的安全问题,如大规模群体事件及其可能引发的局部甚至全局动荡。本书研究了3类安全问题,分别是网络舆情载体平台安全、网络舆情载体的内容安全、基于网络舆情载体的信息隐藏安全问题。其中信息隐藏是一类早已研究、但并未被舆情研究人员关注的安全问题。