8.1.2 使用text2vec包实现文本分布式表征

8.1.2 使用text2vec包实现文本分布式表征

text2vec包为文本分析和自然语言处理提供了一个简单高效的API框架,其内核由C++编写。text2vec包使用流处理的方式处理数据,计算效率更高。text2vec包是一个文本分析的生态系统,具有词向量化、Glo Ve词嵌入、主题模型分析以及文本相似性分析等四大功能。

使用text2vec包进行文本分析的主要过程如下。

(1)构建一个文档-词频矩阵(Document-Term Matrix,DTM)或者词频共现矩阵(Term-Co-Occurrence Matrix,TCM)。

(2)在DTM基础上拟合模型,包括文本(情感)分类、主题模型、相似性度量等,并进行模型的调试和验证。

(3)在新的数据上运用拟合好的模型。