7.3 中文分词及词频统计

7.3 中文分词及词频统计

一般而言,词语标记(Token)是文本数据分析最小的语义单元。不同于英文单词间有空格符分割,中文文本的最小单元是字,由字构成的词语通常没有自然的分割,因此,中文分词是中文文本数据分析初始的关键一步。概括而言,中文分词技术就是要将句子、段落等长文本分解成最小的语义单元,分词的结果可以进一步转化为计算机可以处理的向量形式。良好的中文分词就是要达到清晰切割中文文本语义最小单元的目的,分词结果不仅能提升词频统计的精度,也能为不同粒度(如句子、段落乃至篇章)文本的精准语义分析奠定基础。R语言中能提供中文分词功能的第三方包的数量不少,其中以jiebaR包最为流行,接下来将以jiebaR包为例,重点讲解中文分词的过程及操作技巧。