6.2 文本分析的基本流程
虽然不同文本分析任务的工作流程有所差异,但是其总体框架基本是一致的。文本分析的基本流程如图6-1所示。
图6-1 文本分析基本流程
文本分析基本流程的详细讲解如下。
(1)明确问题。文本分析任务的进行,通常都是为了解决现实中的问题,因此,我们首先需要明确想要解决的问题。
(2)采集文本并构建语料库。在明确业务问题后,我们需要依据问题采集文本数据。在这一步中,我们需要知道应该提取什么样的数据以及怎样提取这些数据,并保证数据的质量,从而确保后续分析高效率、高质量地进行。例如,医院需要采集患者的电子病历信息,但是不同医生的用语规范等习惯不同,这就给后续的文本分析带来了挑战,为了便于后续工作的开展,医院可以制定相应的规范并统一使用。采集的文本按统一格式存储,即构建了文本语料库。
(3)文本预处理。文本数据作为一种典型的非结构化数据,通常难以直接对其进行分析,因此需要对获取的原始数据进行预处理,将其转化成文本分析工作可以处理的形式。在文本预处理步骤中,中英文文本的处理有较大的差异。常见的文本预处理的任务包括分词、去除停用词、拼写检查、词干提取和词形还原等。其中,中文文本分词比英文文本分词更加复杂,需要使用适当的分词算法完成分词任务。词干提取和词形还原则是英文文本预处理的一个重要特点。
(4)特征工程。对文本进行预处理之后,往往需要进一步对数据做特征工程,提炼文本属性或语义特点。例如,我们在进行情感分析时,需要提取文本数据中的情感词以做进一步分析,利用情感词典提取文本数据中情感词的过程就属于特征工程的一部分。
(5)文本分析。我们可以利用各种统计建模、机器学习等方法对数据进行分析,提取面向特定领域问题的知识,并对结果进行解读。这一步骤有时可以一步到位,如汇总计数等;有时则需要多次尝试,调试相应模型的参数,以寻求更优的结果。我们可以依据不同语言粒度对文本进行分析,在词语层面上,常见的分析方法包括词频分析和共词分析;在段落层面上,常见的分析方法包括段落相似性分析和句子情感分析;在篇章层面上,常见的分析方法包括主题分析、情感分析和语义相似性分析等。