在本节中,我们将使用tidytext包对新闻数据集进行分析。这个新闻数据集包含20种不同类型的新闻文本,它们分别存储在20个文件夹中,包含政治、宗教、汽车、体育和密码学等主题。新闻数据集是进行文本分析研究和学习经常使用的数据集,我们将以此数据集为基础,从数据预处理、数据描述性统计,到文本分类、文本聚类和文本情感分析等,为大家展示一个较为完整的文本数据分析过程。该新闻数据集可在http://qwone.com/~jason/20Newsgroups/上公开获取。