7.6 本章小结
2025年09月26日
7.6 本章小结
本章首先介绍如何使用readtext包导入文本数据,以及如何使用stringr包和正则表达式对文本数据进行处理;其次,介绍如何使用jiebaR包进行中文分词;最后,介绍如何提取文本的基本特征以及如何进行高频热词分析和高频共现热词分析,并介绍了词云图与词语熵移图的绘制。另外,本章还重点介绍了R语言中一个具有强大文本分析功能的包——quanteda包,它除了可用于词频分析外,还具有语义分析等众多功能,后续章节会继续学习。
本章有以下几点需要读者注意。
·本章仅介绍了正则表达式的简单用法,对于复杂的正则表达式并未涉及,读者在实际使用中可以按照个人需求进一步学习正则表达式。
·jiebaR包分词的效果在很大程度上取决于词库的质量,读者应定期更新自己的词库。
·虽然quanteda包具有一定的分词功能,但是它对中文文本的分词效果相对较差。读者在使用quanteda包进行中文文本分析时,可以结合jiebaR包一起使用。