《R语言数据分析与可视化》简介
《R语言数据分析与可视化》这本书是由吴俊编著创作的,《R语言数据分析与可视化》共有220章节
1
前言
一、本书目的 数据可视化是基于现代视觉设计和人机交互理论,将数据或信息以生动又简洁的形式呈现,进而通过多样的叙述手段增强决策者认知的新兴技术,也是数据挖掘、计算...
2
目录
目 录 前言 第1篇 方法篇 第1章 R语言概述 1.1 大数据时代的数据分析流程 1.1.1 数据获取 1.1.2 数据存储 1.1.3 数据预处理 1.1....
3
第1篇 方法篇
...
4
第1章 R语言概述
本章为全书的导入章节,主要介绍R语言及其发展现状、开发环境配置与常用第三方包的安装与使用方法。首先,本章简要介绍大数据时代的数据分析流程,让读者了解数据分析的主...
5
1.1 大数据时代的数据分析流程
在大数据时代背景下,无论是教学、科研还是职场工作,都需要具备强大的数据采集、数据预处理、数据分析、数据可视化、数据报告/数据产品制作的能力。传统数据挖掘和数据分...
6
1.1.1 数据获取
在大数据时代背景下,数据来源十分广泛,有从互联网等公开渠道获取的,也有从组织内部渠道获取的。数据获取在方法选择、软件工具选择上有所不同。 互联网上的数据主要用网...
7
1.1.2 数据存储
从互联网上爬取来的数据,如果数据量不大(如万条以内),可以以xls文件的形式存放,之后直接在Excel中处理。不过仍然建议用R语言来处理,因为R语言中的dply...
8
1.1.3 数据预处理
从互联网上获取的数据大多是含有噪声的数据(Dirty Data),这种数据要么有缺失值,要么字段不规范,如果不先做数据预处理就进行数据分析,那么,就会印证数据分...
9
1.1.4 数据建模
在国内外众多数据分析工具软件中,专业数据分析人员一般使用R和Python,下面介绍这两个软件的共同之处和不同之处。 R和Python的共同之处如下。 (1)二者...
10
1.1.5 数据可视化
数据分析的成果只有用生动的图表展现出来,才能体现数据分析工作的质量和成效。国外喜欢用d3.js来做可视化图表,但需要大量时间学习。Tableau也可用来绘制可视...
11
1.1.6 数据产品发布
数据分析的最后一步是将成果进行展示。数据分析的最终成果可以以数据报告(WORD、PDF等形式)或网站页面(HTML5等动态页面形式)的形式交付或部署。 1.数据...
12
1.2 R语言特点
R语言是国外大学统计学和数据科学的推荐分析软件,具有开源免费、源包众多、面向应用、持续迭代等优点。R语言是解释型编程语言,采用函数式编程、向量化运算,代码采用脚...
13
1.3 R及RStudio的安装
作为学术界和企业界广为流行的开源数据分析软件,R语言支持Windows、Mac OS、Linux等多个操作系统,一次编码后,不用修改就可以在不同操作系统中运行。...
14
1.4 常用R包的安装、使用与卸载
R包是函数、数据和文档的集合,是对R基础功能的拓展。只有学会如何使用R包,才能真正掌握R语言的精华。使用R语言的过程可以用一句话来描述:用别人的包讲自己的故事。...
15
1.4.1 R语言常用包
本小节对R语言数据分析常用的包进行了汇总,具体如下。 (1)数据读写:readr、readxl包 ①readr包:把不同格式的数据读入R中,比传统方法的速度快1...
16
1.4.2 R包的安装
R包的来源一般有两种:分布在世界各地的CRAN镜像和Git Hub网站。 安装CRAN上的包可以使用install.packages(‘NAME’)命令,NAM...
17
1.4.3 R包的卸载
使用detach(‘package:ggplot2’)可以将ggplot2包卸除,注意不是将R包从本地删除,而是把已经加载的包卸除,使它不再加载。 如果想彻底将...
18
1.4.4 R包的集群管理
如果要一次安装、加载多个R包,可以使用R包集群管理工具——pacman包。该包能够减少大量packages单个导入的烦琐操作。以library()函数为基础,p...
19
1.5 RStudio的常用功能
RStudio的安装十分简单,但安装完成后,有必要配置一些参数,这样不仅方便后续使用,也可降低报错的可能性。以下是RStudio的几个常用功能。 (1)RStu...
20
1.6 本章小结
通过本章学习,需要重点掌握的内容包括:大数据时代下的数据分析;从数据获取到数据分析产品部署的完整流程;R和Python两种开源数据分析工具软件的功能异同与操作差...
21
第2章 R语言基本对象
在上一章的基础上,本章主要讲解R语言的常用数据类型、数据对象与数据结构,为后续章节介绍R语言编码语法做准备。首先,本章介绍了R语言常用的4种数据类型(数值型、字...
22
2.1 R语言常用数据类型
R语言常用的数据类型主要包括:数值型、字符型、逻辑型、复数型。由于在常用的数据分析中,不会涉及复数型的数据,因此本书并未对复数型的数据进行详细介绍。 常用数据类...
23
2.2 数据对象
R语言是一种基于对象的语言。对象是指可以赋值给变量的任何事物,包括常量、数据结构、函数甚至是图形。对象类型则是R语言组织和管理内部元素的不同方式。R语言中有多种...
24
2.2.1 向量
向量是用于存储数值型、字符型或者逻辑型数据的一维数组,是R语言进行所有数据分析所用的基础数据结构之一。在R语言中,没有正式对标量类型的数据进行定义,标量是只含一...
25
2.2.2 矩阵
矩阵是一个二维数组,也可以说是一个二维向量,所以在矩阵中同样只能保存相同类型的数据。在R语言中,一般使用matrix()函数来创建矩阵,创建矩阵的方式有两种: ...
26
2.2.3 数组
数组是向量和矩阵的自然推广,由三维或三维以上的数据构成。本质上来说,数组仍然是一个向量,所以数组依然具有向量的性质,只能存储相同的数据类型。在R语言中,我们可以...
27
2.2.4 数据框
在R语言中,数据框(Dataframe)的数据结构与矩阵相似,但是其各列的数据类型可以不同。一般情况下,数据框的每列是一个变量,每行是一个观测样本。虽然数据框内...
28
2.2.5 列表
列表(list)是R语言中最为复杂的一种数据结构。列表可以理解为广义的向量,它是一些对象的有序集合,可以包含各种类型的对象,甚至是其他列表。在R语言中,可以使用...
29
2.3 数据类型判别及转换
在R语言中,可以用is.xxx()系列函数来判别数据是否为指定类型,用as.xxx()系列函数将数据转换为指定类型。不同数据类型的判别及转换函数如表2-2所示。...
30
2.4 本章小结
本章介绍了R语言的3种数据类型:数值型、逻辑型和字符型,以及R语言的5种数据对象:向量、矩阵、数组、数据框和列表。其中,数据框和列表是进行数据分析最常使用的类型...