第7章 字符处理及词语分析
本章在第6章文本数据分析的基础上,重点介绍如何基于R语言完成中文文本的预处理、中文文本分词、词频分析以及共现词频分析等。本章首先介绍如何在R语言环境中导入不同格式的文本文件,以及如何对原始数据进行预处理;然后介绍如何完成中文文本分词,以及如何对单个高频热词和多个高频共现热词进行词频统计分析。通过本章的学习,读者应该掌握以下几点。
·readtext包导入不同格式文本文件的方式。
·stringr包常用函数和正则表达式的使用方法。
·使用jiebaR包、quanteda包对中文文本进行分析。
·使用wordcloud2包绘制词云图。
·使用shifterator包绘制词语熵移图。