目录

目 录

前言

第1篇 方法篇

第1章 R语言概述

1.1 大数据时代的数据分析流程

1.1.1 数据获取

1.1.2 数据存储

1.1.3 数据预处理

1.1.4 数据建模

1.1.5 数据可视化

1.1.6 数据产品发布

1.2 R语言特点

1.3 R及RStudio的安装

1.4 常用R包的安装、使用与卸载

1.4.1 R语言常用包

1.4.2 R包的安装

1.4.3 R包的卸载

1.4.4 R包的集群管理

1.5 RStudio的常用功能

1.6 本章小结

第2章 R语言基本对象

2.1 R语言常用数据类型

2.2 数据对象

2.2.1 向量

2.2.2 矩阵

2.2.3 数组

2.2.4 数据框

2.2.5 列表

2.3 数据类型判别及转换

2.4 本章小结

第3章 数据操作与控制

3.1 不同类型数据的输入与输出

3.1.1 数据的输入

3.1.2 数据的输出

3.2 操作符与函数

3.2.1 操作符

3.2.2 函数

3.3 循环控制与条件控制

3.4 数据集连接

3.5 本章小结

第4章 数据整形及处理

4.1 整洁数据和数据整形

4.1.1 整洁数据

4.1.2 数据整形的典型方式

4.1.3 数据操纵

4.2 tidyr和dplyr包简介

4.2.1 tidyr包

4.2.2 dplyr包

4.3 基于tidyr包的数据整形

4.3.1 使用seperate()和unite()函数拆分与合并数据

4.3.2 使用gather()和spread()函数实现长宽数据转换

4.4 基于dplyr包的数据描述性统计

4.4.1 dplyr包的基本操作

4.4.2 使用filter()函数筛选行数据

4.4.3 使用arrange()函数对观测值排序

4.4.4 使用select()函数选择列数据

4.4.5 使用mutate()函数新增变量字段

4.4.6 使用group_by()函数对数据分组

4.4.7 使用summarise()函数汇总数据

4.5 数据整形及处理示例

4.6 本章小结

第5章 数据建模及分析

5.1 多元线性回归分析

5.1.1 多元线性回归模型的一般形式

5.1.2 多元线性回归模型的基本假设

5.1.3 多元线性回归分析涉及的主要函数

5.1.4 多元线性回归模型的应用

5.2 因变量为二分类变量的回归模型

5.2.1 logistic回归模型

5.2.2 logistic回归模型的应用

5.2.3 probit回归模型

5.2.4 probit回归模型的应用

5.3 多类别回归

5.3.1 多类别回归模型

5.3.2 多类别回归模型的应用

5.4 多类别定序回归

5.4.1 多类别定序回归模型

5.4.2 多类别定序回归模型的应用

5.5 泊松回归

5.5.1 泊松回归模型

5.5.2 泊松回归模型的应用

5.6 负二项回归

5.6.1 负二项回归模型

5.6.2 负二项回归模型的应用

5.7 本章小结

第6章 文本分析概要

6.1 文本分析简介

6.2 文本分析的基本流程

6.3 文本数据的预处理

6.3.1 英文文本数据的预处理

6.3.2 中文文本数据的预处理

6.4 文本特征提取

6.4.1 基本特征提取

6.4.2 基于TF-IDF的特征提取

6.4.3 词嵌入

6.5 文本分析的基本任务和方法

6.5.1 词频分析

6.5.2 共词分析

6.5.3 主题分析

6.5.4 情感分析

6.5.5 相似性分析

6.5.6 文本可视化

6.6 文本数据分析工具

6.7 本章小结

第7章 字符处理及词语分析

7.1 文本数据导入

7.1.1 readtext包简介

7.1.2 多种格式文本文件的导入

7.2 字符串的处理工具——stringr包和正则表达式

7.2.1 使用stringr包处理字符串

7.2.2 使用正则表达式匹配规则字符串

7.2.3 联合stringr包与正则表达式处理复杂字符串

7.3 中文分词及词频统计

7.3.1 基于jiebaR包的中文分词

7.3.2 基于quanteda包的词频统计

7.4 文本基本特征提取

7.5 文本的词频分析

7.5.1 词频分析与可视化

7.5.2 共现词语的词频分析

7.6 本章小结

第8章 文本的语义和情感分析

8.1 文本的向量化与不同表征

8.1.1 使用gensim包实现文本分布式表征

8.1.2 使用text2vec包实现文本分布式表征

8.2 基于text2vec包的文本词向量化与应用

8.2.1 基于text2vec包的文本情感分析

8.2.2 GloVe词向量化

8.2.3 LDA主题模型

8.2.4 文本相似性分析

8.3 主题模型分析

8.3.1 基于quanteda和topicmodels包的主题模型分析

8.3.2 基于LDAvis包的主题模型可视化

8.4 文本情感分析

8.4.1 英文文本的情感分析

8.4.2 中文文本的情感分析

8.5 本章小结

第9章 数据可视化设计

9.1 数据可视化的内涵

9.2 数据可视化图表的类型及其选择方法

9.2.1 数据可视化图表的类型

9.2.2 数据可视化图表的选择方法

9.3 数据可视化的样式调整

9.4 本章小结

第10章 静态图表工具与设计

10.1 使用ggplot2包绘制静态图表

10.1.1 ggplot2包简介

10.1.2 ggplot2包绘制静态图表示例

10.1.3 基于ggplot2包的典型案例操作

10.2 使用bbplot包绘制商业图表

10.3 本章小结

第11章 动态交互图表工具与设计

11.1 动态交互图表简介

11.2 recharts包简介以及基于recharts包绘制动态交互图表

11.2.1 recharts包简介

11.2.2 基于recharts包绘制动态交互图表

11.3 本章小结

第12章 Rmarkdown与自动化报告

12.1 可重复研究与文学化编程概述

12.2 R语言自动化报告输出常用包介绍

12.2.1 Rmarkdown和Knitr包的主要功能

12.2.2 Markdown语法与Rmarkdown图表设置

12.2.3 Rmarkdown文件中的代码段编写

12.2.4 Rmarkdown文件中的YAML文件头编写

12.3 本章小结

第13章 Bookdown包与长文档编排

13.1 Bookdown包的特点及其与Rmarkdown包的不同之处

13.2 Bookdown包使用前的配置

13.3 Bookdown包的编排技巧

13.4 Bookdown包的YAML文件头参数设置

13.5 Bookdown包的内容交叉引用

13.6 Bookdown包编排长文档的流程

13.7 本章小结

第14章 dashboard与数据看板制作

14.1 数据看板简介及分类

14.2 使用shiny创建数据看板

14.2.1 shiny简介

14.2.2 shiny网页端文件的创建

14.2.3 使用shinydashboard构建数据看板

14.3 使用flexdashboard创建数据看板

14.4 本章小结

第2篇 应用篇

第15章 数值型数据分析案例

15.1 案例背景

15.1.1 研究背景与问题

15.1.2 数据来源与采集

15.2 数据预处理

15.2.1 数据字段的缺失值处理

15.2.2 数据字段的数据类型转换

15.2.3 数据集的划分

15.3 数据的描述性统计与建模分析

15.3.1 数据的U检验和T检验

15.3.2 数据的相关性分析

15.3.3 数据的逻辑回归分析

15.3.4 数据的生存回归分析

15.3.5 数据分析结果总结

15.4 本章小结

第16章 文本型数据分析案例

16.1 案例一

16.1.1 案例一数据集介绍

16.1.2 案例一数据读取

16.1.3 案例一数据预处理

16.1.4 案例一数据分析

16.2 案例二

16.2.1 案例二数据集介绍

16.2.2 案例二数据读取

16.2.3 案例二构建语料库

16.2.4 案例二数据分析

16.3 本章小结

第17章 数据产品开发与部署案例

17.1 云服务器环境配置基础

17.2 Ubuntu操作系统简介

17.3 RStudio Server简介

17.3.1 RStudio Server安装

17.3.2 RStudio Server的配置

17.4 数据分析成果部署实例

17.4.1 shinyapps.io部署

17.4.2 shiny Server/RStudio Connect部署

17.4.3 flexdashboard在云端的部署

17.5 本章小结

参考文献