7.5.2 共现词语的词频分析
第7.3节介绍的高频热词分析,可以揭示单个词语的出现频次及热度分布特征,但无法分析多词共现(Multiword Expression,MWE)的情况。对于专业领域的文本语料,多词共现不仅可用于识别领域新名词或新术语,也能用于考察作者的遣词用语习惯。因此,在单个词语词频分析基础上开展多词共现分析,能扩大词语级文本分析的深度。
1.n元词(n gram)的提取
在quanteda.textstats包中,可以使用textstat_collocations()函数对n元词进行提取。textstat_collocations()函数有几个重要的参数,示例如下:
其中,x为字符向量、语料库对象或者tokens对象;size为n元词组的长度;min_count为词组出现的最小次数,小于最小次数的词组将不会显示。仍以2021年3月5日第十三届全国人民代表大会第四次会议上的政府工作报告为例,查看本次报告中出现频次大于等于6的2元词组,示例如下:
通过以上分析,我们可以识别并发现“新发展”“科技创新”“高质量发展”“经济社会发展”等高频共现新词组。我们可以将这些高频共现新词组加入专业术语词库,为领域文本的高精度分词做准备。
2.特征共现矩阵
quanteda包中还提供了构建特征共现矩阵的函数fcm(),示例如下:
其中,x为tokens对象或者dfm对象;context指的是考虑共现词的上下文,如果x为dfm对象,context的值只能设置为“document”;windows指的是目标特征两侧窗口大小,默认为5,即目标特征前后5个单词。仍以2021年3月5日第十三届全国人民代表大会第四次会议上的政府工作报告为例,构建特征共现矩阵的代码如下:
通过topfeatures()函数可查看与“发展”“创新”共现频次较高的词汇,示例如下:
由以上结果可以发现,对高频共现热词进行分析可使文本分析更加深入,有助于我们更好地理解文本内容。在文本分析时可以将高频词与高频共现热词结合进行分析。