8.1.1 使用gensim包实现文本分布式表征
在Python中,word2vec封装在gensim包中,所以需要安装gensim包。应用word2vec需要对数据进行分词,Python的中文分词包是jieba,其原理与R相同,使用方式更加简单。
先进行准备工作:


读取文本,并对文本进行清洗,如过滤停用词、标点等,然后对文本进行分词,并将分词的结果进行保存,同时建议将读取的原始文本备份。
接下来导入文本分词结果,调用gensim包训练模型,代码示例如下:

我们可以将模型保存到本地,便于以后使用:

我们还可以将模型保存为文本文件,将其用到其他模型中或者进行查看:
