本章的主要内容是对网络数据的采集研究。笔者首先给出了一个通用的网络舆情信息采集框架。其次分别提出了基于逻辑链接块的网页正文抽取方法,该方法可以用于对新闻类网页、博客类网页及微信公众号类网页的正文提取。接着笔者介绍了一种针对论坛网页的正文抽取方法。最后笔者提供了一个小案例用于展示数据采集以及简单的结构化处理在实际中的应用。