一、研究样本采集

一、研究样本采集

本次研究采集了2013年1月—2016年12月由200个大V用户发布的681 561条微博。参考《中国互联网舆论分析报告》,大V用户的名单是综合用户关注度、线上线下人气、微博话题的公众价值等因素而确定的。该语料库包含用户名称、性别、用户地区、微博内容、发布日期、转发次数、评论次数和粉丝数量等项(见表7-1)。

表7-1 微博语料示例

本次研究统计大V用户数量时发现,样本采集期间(2013—2016年)大V用户的数量并不稳定,既有一部分用户退出微博,也有新的用户加入。因此,为了有效分析用户表达失范的演变过程,最终确定采用四年来用户数据的交叉部分,流程如图7-1所示。首先,比较2013年和2014年的用户名单,保留这两年出现的用户;其次,按时间顺序先后与2015年和2016年的用户名单进行对比;最后,确定83个样本用户。

图7-1 样本用户名单确定的过程