1.4.1 R语言常用包

1.4.1 R语言常用包

本小节对R语言数据分析常用的包进行了汇总,具体如下。

(1)数据读写:readr、readxl包

①readr包:把不同格式的数据读入R中,比传统方法的速度快10倍,同时,字符型变量还不会被转化为因子型变量(read.csv()读入csv文件时会自动把字符型变量转化为因子型变量)。如果数据载入时间超过5 s,函数还会显示进度条,支持读入分隔符文件(如用read_csv()读入csv文件)、txt文本文件(用read_lines()函数读取)、固定宽度文件(用read_table()读入表格类文件)、网络日志文件(用read_log()函数读入日志文件)。

②readxl包:读入Excel文件的首选包,几秒便可将近40万条数据读入内存。

上面两个包都是用C++写成的,一次读入的数据越多,优势越明显。

(2)数据预处理与重塑:reshape2、dplyr、tidyr、data.table包

③reshape2包:主要功能是对数据格式重塑,主要用到两个常用函数melt()和cast()。

④dplyr包:Hadley开发的做数据处理的包,功能强大而又实用,主要解决基于数据集的各类dataframe输出,是R语言数据处理中必学的包。

⑤tidyr包:reshape2包的升级版。

⑥data.table包:比dplyr包更高效的常用包,尤其在数据集很大的情况下,其处理速度甚至超过Python里的pandas。建议经常处理几百万条以上数据的人员认真掌握data.table包的使用方法。有人试验过,使用data.table包处理1 000多万条、近2G的数据,1 min便可将其读入内存。

(3)日期处理:lubridate包

⑦lubridate包:主要处理日期和时间类的数据。

(4)可视化展现:DT、ggplot2、recharts包

⑧DT包:当需要以表格形式展现一部分数据集或数据分析结果时,DT包是较好的呈现方式。

⑨ggplot2包:这个包基本就是R语言可视化的代言词,功能强大但需要时间学习,建议与ggthemes包一起使用。

⑩recharts包:这个包是对百度echarts2的封装,即便不会使用JavaScript,也能在R语言中完成各种商业级图表的绘制。详细使用方法可参考网址:http://madlogos.github.io/recharts/index_cn.html#-en。

(5)学术研究表格展现:stargazer包

[11] stargazer包:这个包是用于格式化输出常用统计分析结果的R包,由哈佛大学的Marek Hlavac开发,可用于生成回归分析、面板数据分析等多种统计分析结果的出版级表格,同时支持html、tex或txt等格式输出,对于撰写统计分析学术论文的人士大有帮助。