第16章 文本型数据分析案例
2025年09月26日
第16章 文本型数据分析案例
本章主要介绍两个实际应用背景下文本型数据分析的完整案例及分析过程。首先,本章介绍了案例背景和数据集;其次,介绍了文本型数据的读取和预处理的步骤和方法,其中主要使用了stringr包和正则表达式;最后介绍了文本型数据分析的几种重要手段和模型,包括文本聚类、主题模型、情感分析等。通过本章的学习,读者应该掌握以下几点。
·对文本型数据进行预处理的过程。
·使用tidytext和quanteda包进行文本分析的方法。
·对文本型数据进行分析的几个重要手段和模型。
文本型数据分析在经济领域经常会用到,如行业的调查研究、公司年报分析等。文本型数据分析与数值型数据分析有所差别,因为文本型数据无法直接被计算机识别,所以需要对文本进行量化处理,然后再通过模型对文本进行分类或者情感分析等研究。希望读者可以通过本章的学习,对文本型数据的分析流程有一个全面的认知。文本型数据的分析流程如图16-1所示。
图16-1 文本型数据的分析流程
在文本分析领域,有两个常用的包:tidytext和quanteda包。对于一般的文本分析来说,这两个包可以满足基本需求。本章将分别使用tidytext包和quanteda包对两个文本型案例进行分析。