2.1 新闻网站
2025年10月24日
2.1 新闻网站
网站是一种历史悠久的媒体平台形式,在早期的互联网普及和各类信息传播中功不可没。即使互联网历经几轮的起伏,曾经几乎与之并驾齐驱的论坛、博客已极度萎缩甚至销声匿迹,但网站尤其是门户网站仍然是网民了解网络信息的主要渠道之一。网站自行采编的消息或者转发合作方的消息,主要来自记者等专业的采编人员,网民则作为接收方通过网站浏览这些信息。从结构和内容上来看,网站中页面种类繁多,根据不同的分类标准其划分也会不同,其结构也多种多样。不过,网站最为主要的信息载体即其中的新闻内容页面。
网站中页面种类繁多,根据不同的分类标准可以划分为不同的类型,其结构也多种多样。不过,根据研究目的,对于网站形式,下文主要讨论新闻内容页面,也就是网站最为主要的信息载体。无论哪个新闻站点,都具有基本固定的宏观结构和内容要素,它们是:新闻标题、信息来源、发布时间、正文内容。如图2-1所示。当然,其中正文部分往往包含着噪声内容——广告,链接中,同样常常包含广告链接块。这些都是后续网页内容抽取过程中需要去分析和避免的内容。正文中的时间、地点、人物、事件等则是网络舆情演化分析的重要基础支撑数据。热门信息(新闻)和相关新闻则是实现高效网络数据爬取的关键支撑。用户评论部分目前并非新闻网页中的普遍性内容,不过这部分内容可用于跟踪用户的情感演化变迁情况,对舆情的深入分析和研判作用明显。

图2-1 典型的新闻网页内容要素
此外,对很多新闻页面来讲,在页面底端还存在大量的用户评论内容。这些也是网络舆情分析的重点内容。