大数据时代的样本选择
2012年11月29日,习近平总书记提出“中国梦”的概念,此后在主流媒体上引起强烈反响并成为全社会普遍关注的焦点话题,以微博为代表的社会化媒体也进行了持续的关注。根据数据挖掘显示,2013年1月1日到2013年6月30日,新浪微博上共出现了224515条原创博文[3],这些博文分别涉及政务微博、媒体微博、个人认证微博等若干的传播主体。研究假定,不同的传播主体虽然都对中国梦进行了大量的聚焦,但其阐释和传播的内容及策略则各有不同,“中国梦”的叙述话语从官方的主流媒体拓展到以微博为代表的社会化媒体,必然经历了从叙事风格到叙事边界的拓展。
话语分析要对文本的“语言运用单位进行清晰的、系统的描写”,这种“描写”有两个主要的视角——“文本视角”和“语境视角”[4]。然而,传统的话语分析往往偏重于对单条或少量样本的解读,在大数据时代,传统的话语分析依然有其经典的参考价值,只不过在样本的选择及具体的操作层面需要进行某些革新。诚如舍恩伯格所言,“当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,‘样本=总体’”[5]。国内学术界自2012年开始掀起一股“大数据”的热潮,基本上遵循了舍恩伯格所提出的三个分析原则,“不是随机样本,而是全体数据”“不是精确性,而是混杂性”“不是因果关系,而是相关关系”[6]。然而,在社会科学的研究领域,我们依然不能放弃对“精确性”的追求,事实证明,“精确的测量结果比不精确的测量结果要优异。使用不精确的测量绝不会比使用精确的测量能得到更优异的结论”[7]。
本研究初步采集到的中国梦全体样本为224 515条,并非所有的样本皆有效,在多次观察和分析后,去掉了大量与本研究所聚焦的“中国梦”话题无关的内容,以及虽然聚焦于“中国梦”但属于重复性且没有实质内容的“投票”信息、“分享”信息和营销信息,以上筛选掉的信息共计55 963条,剩余有效样本数量为168 552条。同时,微博作为碎片化的传播平台,不同的博文有着不同的覆盖度和传播力,在进行深度数据分析时,必然要考虑“琐碎的多数”和“重要的少数”同时兼顾的问题。