8.5 本章小结

8.5 本章小结

本章首先介绍了文本的向量化与几种不同的表征方式,如何在Python中使用gensim包中的word2vec进行词向量化,以及如何在R语言中使用text2vec包进行词向量化与文本分析;其次,介绍了LDA主题模型常用的R包及可视化工具;最后介绍了基于情感词典的文本情感分析方法。

本章有以下几点需要读者注意。

·使用R包可以很简单地得出主题模型的输出结果,但是如何解读所得出的结果是一个重难点。本章简要介绍了LDAvis包的使用方法,读者可以自行按照LDAvis包的网站上给出的示例进行练习,从而加深理解。

·基于情感词典的情感分析需要依据特定情境自定义情感词典,不宜使用通用的情感词典。