6.3 文本数据的预处理

6.3 文本数据的预处理

通常来说,文本数据属于非结构化的数据,包含标点符号、数字与特定符号等,在正式分析之前,往往需要对文本进行预处理,过滤或删除无关的噪声或干扰,以确保分析语料高质量,从而达到更好的分析效果。

在文本预处理的过程中,中英文文本数据的处理有很多不同的地方,其中两个重要的区别如下。第一,英文文本以单词作为最小的语义单元,单词与单词之间由空格分隔,因此除了一些领域的专业术语之外,英文文本数据基本不需要分词。而中文文本虽然也是以词语作为最小的语义单元,但是中文词语与词语之间没有空格分隔,所以不能直接像英文文本那样直接使用空格和标点符号完成分词的任务,因此,通常需要使用分词算法来完成分词。第二,英文文本中同一个单词可能会有词形的变化,如名词的单复数变化、动词的时态变化、形容词的比较级变化等,因此,在分词后,往往还需要对单词进行词干提取和词形还原。而中文文本则存在领域术语或专有名词由多个字/词构成的情况,通常需要根据具体语境发现、识别并提取这些领域术语或专有名词,以确保对不同粒度的文本正式展开分析时,不丢失领域特征信息。

下面分别介绍中英文文本数据预处理的过程和常用方法。