7.1 文本数据导入
文本数据大多以txt、json、csv、xml、pdf、doc等多种格式文件存储,要将这些来源复杂、结构不一的数据文件读入R环境并转换成可以处理的变量,需要借助于具有较强灵活性和较简单功能的R包。R语言中能够导入文本数据的第三包数量众多,本书重点以readtext包为例讲解如何导入多种格式的文本数据。该包由伦敦政治经济学院肯尼思·比诺特(Kenneth Benoit)教授等人开发,不仅可以接受不同的文件编码格式,加载读入多种格式的原始文本文件,还可以记录文档元数据,方便批量文档的分析。