第8章 文本的语义和情感分析
2025年09月26日
第8章 文本的语义和情感分析
文本的语义分析和情感分析大多面向句子、段落或篇章,前者旨在识别文本的主题、类别等语义信息,后者用于判断主观性文本的情感倾向。一般而言,文本语义分析包括文本分类、文本主题建模等,文本情感分析包括文本情感倾向分类和文本情感极性计算。在第7章字符串及词频分析的基础上,本章首先介绍文本的向量化以及基于词袋(Bag of Word)模型和词嵌入(Word Embedding)模型的向量化表征差异;其次,介绍基于词嵌入模型的分布式表征及应用;再次,讲解基于词袋模型的潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)方法及其典型应用;最后介绍文本情感分析的常用方法。通过本章的学习,读者应该掌握以下几点。
·两类典型的文本向量化表征方法及其异同点。
·基于词袋模型的潜在狄利克雷分配方法及对应R包的应用技巧。
·基于词嵌入模型的文本分布式向量表征方法及对应Python或R包的应用技巧。
·基于词嵌入模型的文本相似性分析方法及对应R包的应用技巧。