本章主要研究网络舆情原始Web数据的获取,以及获取后对页面内特定数据的抽取,尤其是正文文本数据。
本章首先介绍了通过网络舆情信息获取框架的设计思想,进而研究了一种针对新闻、博客等网页的正文抽取方法——基于逻辑链接块的网页正文抽取方法,此外还研究了一种针对循环结构网页的网页正文抽取方法——基于多特征融合的网页正文抽取方法,该方法可以被广泛应用于对论坛、各类网页评论的获取。最后笔者通过一个例子讲解了相关方法的应用思路并进行了分析。