7.4 文本基本特征提取
文本作为信息的载体,除了内容包含有价值的信息外,它的形式往往也包含着有价值的信息,如字符、句子的数量,标点符号类型及数量等,这些都属于文本的基本特征。在R语言中,可以使用textfeatures包来提取这些基本特征。
接下来,通过一个实例来演示如何使用textfeatures包,代码如下:

以上结果中表头所代表的含义,可以查看网址https://mirrors.tuna.tsinghua.edu.cn/CRAN/web/packages/textfeatures/textfeatures.pdf。需要注意的是,textfeatures包目前只能用于英文文本。