二、数据的分析

二、数据的分析

数据新闻兴起之后,有部分新闻从业人员开始对职业持有悲观态度,认为在技术高速发展的时代,大量专业工作开始被技术取代。其实不然,对于数据的分析,依然需要新闻从业人员极强的专业知识储备、媒介素养以及新闻专业主义精神。在此基础对所采集的数据进行预处理,鉴别数据真实性、完整性以及时效性等,结合数据分析工具,对所获取的数据进行分析,从而让数据能够“有血有肉”。

(一)数据预处理

真实、完整的数据是进行数据分析的前提,其次还需要考虑数据的权威性、时效性等因素,因此在获取数据时候,首先需要对数据进行一次预处理,以保障后续的分析进行。

1.数据客观性及完整性检验

首先,在数据获取环节,一类数据常常可以通过多个渠道获取,新闻生产者要根据获取来源的权威性和可靠性进行选择,同时还需要对不同来源的同类数据进行交叉验证,以尽可能保证数据的真实性与完整性。其次,还需要谨慎地对各类数据进行新闻价值判断,对数据集进行深入而广泛的探索与挖掘,尽可能多地保存有关联性的数据,以便后续叙事过程中能随时取用。例如影响个体采取行动与做出决策的变量是非常多的,很难通过一两个变量就解释清楚,考虑到这一点,就需要在前期尽可能多的将相关的背景数据进行充分收集,以便在后续能够使用相关数据进行解释。充分完整的数据保障数据新闻报道全面的基础。最后,新闻生产者应该明确数据并非总是客观的,尤其是图文型数据,其通常是由人来划分类型。除此之外,对数据的采集过程也是人为的,因此,个人的价值取向会影响到最终的数据,从而使数据带有一定的主观性。新闻生产者需要警惕,应以专业精神和新闻敏感度出发,结合选题背景,对数据采集及产出过程进行把握,考量数据产生背后的因素,避免自己掉入“数据陷阱”之中。例如要考查社交媒体上用户对于某一公共事件的舆论,不能仅仅只看总体的舆论风向,还需要注意不同的群体对于该事件的表达与评论。

2.数据过滤

数据过滤通常又被称为“数据清洗”,主要是利用工具将众多数据中的无效数据进行清理,无效数据主要有三种类型。一是缺失数据,是指在采集到的数据中,个体数据或者数据的某一个属性缺失了,需要进行补全或无效清理。二是重复数据,重复数据首先需要判断是所有属性完全重复,还是仅仅是数值重复。数值重复可以备份后合并或删除,完全重复则不用备份,直接处理。三是异常数据。例如某些数据格式不一致等问题。在数据过滤环节,有很多有效的数据清洗工具和方法,下面作简单举例介绍。

(1)缺失数据处理

对于数据缺失值的处理,主要的方式包括直接忽略或删除,保留缺失值记录、在相应分析中做必要排除,应用默认值,使用同类样本平均值,预测可能值等。对缺失值的处理可以利用R语言、python中的拉格朗日填充法等,本书简单介绍利用微软公司Office Excel软件处理空白单元格形式的缺失数据。

首先,在Excel“开始”选项中选择“编辑”功能区,然后单击“查找与替换”,在下拉菜单中单击“定位”(快捷键“Ctrl+G”可直接选择“定位”),在“定位条件”选中“空值”确定,即可选中选区数据中的所有空值(图9-7所示)。第二步,确定处理方式,例如使用同类样本平均值填充,确定平均值数据或公式,按住“Ctrl”和“Enter”键,在不连续的区域中输入该数据或公式。第三步,对定位中的“空值”做标识,选择其中一个“空值”并同时长按“Ctrl”键选中全部剩余“空值”。最后,在最后一个被选中的“空值”中输入所需要录入的数据,按住“Ctrl”和“Enter”键,完成所有“空值”的统一数据录入。

图9-7 Excel中“定位条件”选中空值确定

图9-8  Excel中“条件格式”选中“重复值”

图9-9 重复值对话框

(2)重复数据处理

对于重复数据,通常的处理方式就是进行合并或者清除,下面介绍利用Excel工具中条件格式快速直接清除重复数据的方法。选中目标数据选区,在“开始”菜单栏中选择“条件格式”选项,选择“突出显示单元格规则”,在下拉菜单中单击“重复值”(图9-8所示),然后弹出“重复值”对话框,在对话框中设置重复值的格式,点击确定(图9-9所示),重复值被标记,可直接删除。

(3)异常数据处理

异常数据的发现与处理可以利用工具绘制“箱形图”来实现,绘制“箱形图”的工具很多,如Tableau、Excel等。Excel中插入图表里可以直接选择“箱形图”,根据绘制结果做出异常数据处理与判断。此外对于格式异常的数据,还可以利用Excel“突出显示单元格规则”中的“其他规则”里的“新建格式规则”来进行处理,此处就不一一展开了。

数据过滤最容易上手操作的就是Excel软件,但是它只适合用来处理质量较好的数据。对于体量大且杂乱的数据,推荐使用Open Refine工具,也是比较容易快速上手操作的。当然,如果有一定的编程基础,可以使用Python工具等对数据进行处理。

(二)数据分析方法

在对数据进行了预处理之后,就可以着手对数据进行分析了,数据分析环节即让数据“开口”,深入挖掘数据背后的故事。基本的数据方法主要有以下几种。

1.对比分析法

对比分析法是指将两个(组)或两个(组)以上的数据进行或横向、或纵向、或全方位的比较,分析数据之间的差异,从而揭示造成差异的原因或者总结数据各自的规律。

财新网“数字说”栏目的数据可视化新闻作品《那些年我们做过的广播体操》(图9-10),通过对比60年间广播体操从第一套到第九套的动作、燃脂率、背景音乐等方面的差异,揭示广播体操的编排规律、不同时代背景下“全民做操”的热度、现阶段健身方式多元化等问题。

2.分组分析法

分组分析是指将数据按照一定的标准(指标)进行分组,从而了解不同数据类型的特征、性质,进而揭示不同类型的数据的规律性以及相互之间的联系。需要注意的是分组分析法要坚持相互独立、完全穷尽的枚举分析法原则。分组内容之间不能有交叉,每个数据只能进入到一个组别,不能同时属于两个或两个以上组别;同时分组的时候也不能遗漏数据,将部分数据单独出来,不进行分组。

3.预测分析法

预测分析时通过对现有的数据进行分析之后,预测未来的发展趋势或者事件的结果。例如对于体育新闻,通过对过往比赛数据的分析,预测比赛的结果等。要注意的是,使用预测分析法时,一方面要注意数据逻辑处理的严谨性与科学性,尽可能充分的考量数据关系中的各种要素;另一方面要注意数据来源对于预测结果的影响。

图9-10 《那些年我们做过的广播体操》

4.相关分析法

《大数据时代》作者迈尔-舍恩伯格在书中写道:“大数据时代,相关关系比因果关系更重要”“相关关系能够帮助我们更好地了解这个世界”。这一方法是指对两个或两个以上的具备相关性的变量进行分析,判断变量之间是否存在不确定的统计关系,进而去衡量两个变量之间的相关程度及其方向。相关分析法能够有效地在大数据时代进行预测。2013年谷歌公司曾发布了《谷歌搜索电影票房预测分析报告》,报告通过影片的搜索量与最终票房数据进行相关分析,发现两个变量之间存在极高的相关性,以此建立了“谷歌票房预测模型”,提前一周预测即将上映的影片的票房收入,预测准确度高度94%。