4.1.2 舆情热点的发现
总的来讲,网络舆情往往是突发的、无法预测的;当然也不排除某些已经呈现一定现实端倪的舆情是可以被防止的。
网络舆情热点也是有可能被预测的,并且是可以被自动发现的(丁晟春等,2020)。网络舆情自动发现的原理流程如图 4-1所示。

图4-1 网络舆情自动发现原理
针对上图各个部分,分别解释如下:
(1)网络数据采集。网络数据采集是舆情分析的基础,也是网络舆情热点分析的基础。在网络舆情热点发现的应用场合,网络的数据采集是非主题性的。
(2)数据预处理。该环节主要包括数据的清洗、页面代码的规整化以及一些信息的初步提取,例如页面链接等。该环节随着分析目的的不同而有所不同。有效的页面链接提取是高效数据采集的基本保障。由于数据采集的非主题性,因此在该环节对提取的网页链接也没有特别的要求,这样才可能收集到更为广泛、全面的舆情信息。
(3)文本提取。文本提取是一项基础而重要的环节。根据媒体平台类型的不同,其数据结构及网页宏观布局也会不一样,因此其提取方式也会有所区别,例如新闻门户页面和微信公众号页面的数据提取比较类似,但是它们和论坛的数据提取则有很大的差异。这在前文已有所展开,此处不再赘述。当然该环节往往提取的不止有文本,还需要提取诸多的各类属性特征数据,这些属性数据因媒体平台及分析目的的不同而不同。
(4)文本向量化。这是后续各类分析的基础。在执行文本向量化前,往往需要完成前置操作——分词,这是一个极为成熟的领域,拥有大量的开源或免费工具可供直接选用。文本向量化可以指向词语的向量化,也可以指向长文本的向量化。其中,词语向量化是基础。目前相关的方法比较多,也较为成熟。例如传统的one hot编码词向量、较新的自然语言处理Word2Vec词向量等。
(5)聚类分析。研究者在进行聚类时,需要考虑时间跨度。因为过长的时间跨度,往往会使研究者错过当下正在发展或者即将发展为热点的那些准热点舆情。当然若目标并非发现的新舆情热点,则时间跨度根据具体需要进行调控即可。
(6)热点舆情。经过如上步骤,即可获知当下的热点舆情或者即将可能成为热点的准热点舆情。