1.1 大数据时代的数据分析流程
在大数据时代背景下,无论是教学、科研还是职场工作,都需要具备强大的数据采集、数据预处理、数据分析、数据可视化、数据报告/数据产品制作的能力。传统数据挖掘和数据分析的知识与手段,越来越难以处理并分析多源异构、复杂多维的数据集,也难以满足各类头部企业的职位人才需求。随着新的方法和软件工具的层出不穷,诸多新手因缺乏经验而无所适从,一些数据分析爱好者学习部分方法和软件工具后,因缺乏实际项目应用而导致能力提升缓慢。
以R和Python为代表的数据分析软件,是一类典型的开源软件平台(Open Source Platform),具有内核精小、模块化封装、社会化协作、社区化发展的特点。这类开源软件具有5大特性,可以很好地满足针对性的分析需求,适应多样化的问题场景。
(1)替代器。开源软件正在逐步替代传统的商用收费软件,如SPSS、SAS等。
(2)粘贴器。开源软件通过数据获取、重塑,把杂乱的数据有机结合起来,形成对人有意义的、能辅助决策的知识,乃至智慧。
(3)赋能器。开源软件将多源异构的数据与精准适配的算法相结合,赋能业务的发展。
(4)映射器。开源软件将物理世界的人、机、物以数字化形式映射为数据,表征物理世界的变化与规律,从而得以更精确地度量和操控人、机、物的运行。
(5)想象器。开源软件通过“数据+算法”打造数字虚拟体,在数字空间跨越时空障碍,激发无限想象力,创造出物理世界不存在的事物——数据产品或数据服务。
传统数据分析的数据量有限,一般有几万条数据用于研究,且以单一来源同构的数值型数据为主。而在当今大数据时代背景下,数据量明显增加,一般至少有数十万条数据用于研究,且数据类型更加多样化,数值型数据、文本数据、图像及音视频数据不断涌现,但这些数据散布在互联网或线下各处,需要应用多种办法获取并处理。相对来说,大数据时代的数据分析流程更加冗长、复杂。
R和Python完整的数据分析流程分别如图1-1、图1-2所示。数据分析流程包括数据导入、数据清洗、数据分析和结果呈现等环节。其中,数据分析是整个流程的核心,包括数据整形(Data Wrangling)、数据可视化(Data Visualization)与数据建模(Model Building)三部分,三者是一个循环迭代、不断完善的过程。
图1-1 R的数据分析流程
图1-2 Python的数据分析流程
本书介绍的数据分析软件以R语言为主,将从数据分析的全过程切入,逐一讲解每一个过程涉及的分析方法、相应代码以及基本技巧,帮助读者在后续学习过程中更好地理解。本书提出的大数据时代的数据分析流程如图1-3所示。
图1-3 大数据时代的数据分析流程