8.4.2 中文文本的情感分析
2025年09月26日
8.4.2 中文文本的情感分析
中文文本的情感分析与英文文本的情感分析思路相似,首先需要准备一个中文情感词典;其次将中文文本的分词结果与情感词典进行连接,从而对中文文本中词语的情感得分进行赋值;最后将所有词语情感得分的总和看作整体文本的情感得分。
下面以一个简单的文本材料为例,介绍中文文本的情感分析。
首先,准备需要分析的文本材料,本节以随机挑选的10条关于“双减”政策的微博评论为例,评论文本如表8-1所示。
表8-1 评论文本
然后,依据要分析的文本内容自定义情感词典。情感词典分为两列:一列为情感词;另一列为情感得分。在本节示例中,将积极的情感词汇得分定义为1,将消极的情感词汇定义为-1。
接下来,使用jiebaR包对中文文本进行分词,示例如下:
最后,计算每条评论的情感得分。使用inner_join()函数将分词结果与情感词典进行内连接,以每条评论的id分组计算每条评论的情感得分。示例如下:
我们也可以将得分结果与文本内容进行连接,以对照查看每一条评论内容的得分,如下所示:
通过输出的结果可以看到每一条评论的情感得分,情感得分大于0且数值越大,文本中包含的积极情感词汇越多,表达的越是正面的情感;情感得分小于0且绝对值越小,文本中包含的消极情感词汇越多,表达的越是负面的情感。
在使用情感词典进行情感分析时,需要基于特定的语言环境来进行,因此,若读者需要使用情感词典进行情感分析,则需要依照所分析的内容修改或者自定义情感词典。