网络舆情涨落研究之源——网络舆情大数据信息的获取与抽取研究

2026年01月15日

版权

3　网络舆情涨落研究之源——网络舆情大数据信息的获取与抽取研究

本章主要研究网络舆情原始Web数据的获取，以及获取后对页面内特定数据的抽取，尤其是正文文本数据。(https://www.daowen.com)

本章首先介绍了通过网络舆情信息获取框架的设计思想，进而研究了一种针对新闻、博客等网页的正文抽取方法——基于逻辑链接块的网页正文抽取方法，此外还研究了一种针对循环结构网页的网页正文抽取方法——基于多特征融合的网页正文抽取方法，该方法可以被广泛应用于对论坛、各类网页评论的获取。最后笔者通过一个例子讲解了相关方法的应用思路并进行了分析。