16.2.3 案例二构建语料库

16.2.3 案例二构建语料库

quanteda包的所有分析都建立在语料库的基础上,它提供了可以直接构造语料库的corpus()函数。corpus()函数可以作用的对象如下。

·字符对象向量,如用户直接读取的文本数据对象。

·语料库对象,如来自tm包处理的VCorpus语料库对象。

·文本数据框对象,如有文本数据列和文档元数据列的数据框对象。

文本预处理应该在构造语料库之前,本章使用tidytext包进行文本分析的案例已经介绍了数据处理的步骤,并且这里使用的是quanteda包提供的内置数据,所以这里不再介绍数据的预处理部分。

首先,加载quanteda包并使用corpus()函数加载语料库: