6.3.2　中文文本数据的预处理

2025年09月26日

版权

6.3.2　中文文本数据的预处理

中文文本数据预处理与英文文本数据预处理有些不同,它不需要考虑词干提取、大小写一致等问题,但是对于分词却有较高的要求。中文文本数据预处理主要有4个方面:剔除无效字符-C、初次分词-O、创建专业词库和停用词库-W、二次分词-T。常用的中文文本数据预处理通常按照“C-O-W-T”的步骤操作。

1.剔除无效字符-C

与英文文本剔除标点、数字等类似,我们可以使用正则表达式剔除无效字符,具体可以参考第7.2节。

2.初次分词-O

我们可以通过中文分词工具对文本数据进行初次分词,目前比较常用的中文分词工具是结巴分词,初次分词时会自动引入通用词和停用词。然而,观察分词结果可以发现,初次分词的效果并不理想,一些词语如网络用语、领域内的专有词语等无法正确切分,因此还需要依据初次分词的结果和专业知识进一步处理。

3.创建专业词库和停用词库-W

随着社会的发展,新的词语不断出现,如“锦鲤”“内卷”等,分词效果越来越难以保证,而且在不同的背景下,语言的使用也有所不同,因此在对中文进行词语切分时,需要通过初次分词的结果、研究背景以及研究领域内的专业知识,对专业词库和停用词库进行适当的增加和修改,如此才能提高分词的质量。

4.二次分词-T

将创建的专业词库和停用词库应用于二次分词中。我们可以使用jiebaR包中的worker函数的user参数引入专业词库,使用stop_word参数引入停用词库。