2.2 论坛
论坛曾经红遍整个互联网,也发展起来了多个开源或商业版本的知名论坛程序。时过境迁,论坛的发展已大不如前。不过仍然在运营的论坛数量,其实也不少。并且跳出论坛本身,我们从论坛的结构出发,其实能够开发出很多通用性更好的内容数据提取程序。因此在舆情研究中,将论坛纳入研究范畴是很有必要的。
虽然论坛程序多种多样,甚至是同样一个论坛程序,由于版本不同,其外观和布局也不尽相同,但幸运的是,在某个抽象层次上,他们是具有共同特性的,这也就为实现通用论坛数据提取提供了可能。
每个论坛都包含了成千上万甚至更多的论坛主题。但是,从页面功能来讲,其典型页面一般只有3个:论坛版块索引页、论坛主题索引页、论坛内容页,分别如 图2-2、图2-3、图2-4所示。

图2-2 论坛版块索引页

图2-3 论坛主题索引页
论坛版块索引页是论坛管理方用于展示自家论坛所有版块的页面,可以视作整个论坛网站的一个重要入口。该页面往往会包含如下要素:各版块名称、各版块的版主、各版块的今日更新量、累计回复量、累计阅读量、最新发帖主题、最新发帖的账号、最新的发帖时间等。
当对论坛进行宏观动态跟踪时,研究者可以根据今日访问量、累计帖子数、累计会员数等进行。例如通过累计帖子数和累计会员数的增量判断论坛的发展状况及活跃状况,后文中笔者对论坛的案例分析即使用了该方法。
当进行论坛数据采集时,最近更新时间可以用于判断该版块是否需要进行增量采集。当然通过相邻两次采集的更新量差值,不仅可以判断是否需要执行增量采集,也可以用于采集策略的设计,即该版块的采集间隔应该设置为多少。这是因为,对于一个更新频率很低的版块,研究者可以降低采集的频率,从而减少采集的次数;而对一个更新频率很快的版块,则可以增加采集频率从而加大采集次数。这样既可以实现对数据的全面性采集,同时也不至于给论坛造成太大的压力。

图2-4 论坛内容页
另外由于论坛的发帖量往往具备一定的规律性,因此研究者也可以在一个较长的时间线上,采用机器学习的手段对发帖量进行预测,进而从较为宏观的层面控制采集策略。
论坛主题索引页是用于展示某个版块下若干最新主题的页面。该页面一般包含如下要素:帖子标题、帖子的发布者及发表时间、帖子的最新回复者及最新回复时间、帖子的阅读数和回复数、帖子的页数。
在执行论坛数据采集时,可以根据回复数或者阅读数来判断帖子的热度;为了更合理地判断出热门帖子,还应该考虑时间要素,避免陈年旧帖依赖于长时间的积累优势而“霸榜”。毕竟,在网络舆情研究中,我们往往更加关注的是“黑马”型帖子主题,即在最近一段时间内的热帖。
从更长的采集时间角度来看,则可以获取到某个版块下的活跃用户,以及各个帖子主题发展背后的推动用户。当然我们也可以通过帖子主题级的用户共现,构造用户网络,进而实现深层分析,此处不再展开,详见后文。
论坛内容页是论坛各个帖子主题具体内容的页面。这也是论坛内容分析的核心。其中一般包含了如下要素:各参与回帖的用户账号信息(如账户名、发帖数、回帖数、积分数等)、帖文发表时间、帖文具体内容等。
从帖子内容页出发,更容易实现对某个版块下的活跃用户,以及各个帖子主题发展背后的推动用户的获取;当然也更加容易构建用户网络。
此外在整个论坛系统中,各类索引页都以超链接导航为目标,只有内容页以表意为重点。这也就构成了论坛文本数据挖掘的基础,例如用户情感分析等。