6.4.3 词嵌入
词嵌入是文本向量化的一种方法,是指自然语言处理把维数为所有文本单元数量的高维空间嵌入维数更低的连续向量空间中的过程。基于词袋模型的文本向量化,在处理文本时会产生巨大的稀疏矩阵,该稀疏矩阵含有大量的0元素,这会导致存储效率低,丢失词语先后顺序的记录。而词嵌入技术则可以通过减少向量的维度,利用数值向量对词语进行表征,计算不同词语之间的相互关系。利用词嵌入模型,可以找到与目标词上下文语义相近的词语,也可以找到与目标词上下文语义相反的词语。同时,词嵌入模型还能够计算词语之间的距离,帮助读者更好地理解不同词语之间的关联性。
目前有很多工具能够实现词嵌入算法,如R中的text2vec包、word2vec包,Python中的gensim包等。