4.5 数据整形及处理示例

4.5 数据整形及处理示例

前面章节已对tidyr包和dplyr包的主要函数进行了说明,接下来将用之前所学的知识对数据集进行简单的数据分析。本节以某家跨国公司的全球销售订单数据集为例,通过对其进行分析,了解不同市场、产品的销售情况,从而指导销售策略。

首先,我们需要加载需要用到的包:

该跨国公司的全球销售订单数据集有若干个细分的销售区域,我们可以将数据集按照销售区域进行分组,然后求出各个市场的总销售额,从而对其进行排序,对应代码如下:

上面的结果或许不够直观,我们可以使用ggplot2包配合ggthemes包的方法,将分组求和后的数据可视化,具体代码如下。各市场销售额统计如图4-1所示。

图4-1 各市场销售额统计

从图4-1可以看出,亚太地区是最大的销售市场,其次是美国、欧盟等发达地区。另外,由图4-1还可以看出,加拿大市场销售额很低,这或许是一个需要开辟的区域。我们还可以在此基础上进一步统计各个地区不同类别细分市场的销量,对应代码如下:

单纯的数据不够直观,我们可以将其可视化,对应代码如下。各区域细分市场销售数量统计如图4-2所示。

图4-2 各区域细分市场销售数量统计

我们接下来统计客户的采购情况,并分别找出采购量最大和最小的5个客户,从而分析采购量大或者采购量小的原因,制定不同的销售策略,对应代码如下:

前面已经在空间上对数据集进行了统计汇总,接下来按照时间序列对数据集进行统计分析。下面以该跨国公司的全球销售订单数据集为例,绘制该公司的年、季度和月份销售额变化曲线,并计算同比变化率,从而了解该公司的年度销售情况。

首先,按照年份汇总销售量,使用ggplot2包对其可视化,对应代码如下:

代码运行得到的年销售额统计曲线如图4-3所示。

图4-3 年销售额统计曲线

从图4-3可以看出,该公司的年销售额随着年份逐年递增,由此可知,该公司的销售策略是非常正确的。那么,每一季度的销售额又是如何变化的呢?我们可以通过如下代码实现对每一季度销售额的分析:

代码运行得到的不同季度销售额统计曲线如图4-4所示。

图4-4 不同季度销售额统计曲线

读者可以自行思考月销售额统计曲线的绘制方法。同比增长率是经济分析中经常用到的指标,那么该公司的月同比增长率是怎样变化的呢?通过如下代码可以实现对该公司月销售额的分析:

代码运行得到的月销售额同比变化曲线如图4-5所示。

图4-5 月销售额同比变化曲线

最后计算一下月销售额的同比增长率,对应代码如下:

代码运行得到的月销售额同比增长率如图4-6所示。

图4-6 月销售额同比增长率