1.1.4 数据建模

1.1.4 数据建模

在国内外众多数据分析工具软件中,专业数据分析人员一般使用R和Python,下面介绍这两个软件的共同之处和不同之处。

R和Python的共同之处如下。

(1)二者都是开源软件,且第三方包都很多。其中,R有1万多个第三方包(见CRAN),Python有10万个第三方包(见pypi)。

(2)二者均有成熟的社区、教程和用户。

(3)二者均有很好的IDE和编辑器支撑(R一般用RStudio,Python一般用anaconda,外加sublime text)。

R和Python的不同之处如下。

(1)R比较适合学术研究,不太适合大规模生产环境的部署。

(2)Python功能较R更强大,除了数据分析外,还可以进行web开发、自动运维等。

结合二者的特点,R和Python有不同的分工:R一般用于统计分析(如回归分析、面板数据计量分析等)和简单的机器学习模型,R中的ggplot2包可用于绘制图表;而Python用于数据爬取以及复杂的机器学习模型和深度学习模型。

对于数值型数据的分析,需要注意如下两点:用R实现传统的统计分析(如T检验、方差检验、线性回归方程等)最为方便;数据挖掘和机器学习算法(如分类、聚类、关联规则等)在R语言中分散在多个包中实现,而在Python中,则是统一由scikit-learn包实现,十分方便。建议读者先从R学起,之后再学习Python。神经网络和深度学习(即深度神经网络)建议用Python来实现。