5.1.1 词频分析
2025年10月20日
5.1.1 词频分析
词频分析的原理是通过对关键词或主题词的出现次数以及词与词之间关系的统计分析来判别文献研究的内容和热点。统计学方法是词频分析的常用研究手段。在中文文档中,同时出现相邻字的次数越多,就表示该相邻字组合越有可能构成一个词,因此相邻字的组合共现的频率或概率就能够较好地反映组成词的可信度。这就是词频统计的基本原理,该技术发展至今已经有很多不同的统计原理,如互信息原理、N-Gram统计模型、T-测试原理等。
从文献计量学的角度来看,齐普夫定律为词频分析奠定了理论基础。齐普夫定律是美国学者G.K.Zipf于20世纪40年代提出的,被表述为:如果把一篇文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级是1,频次次之的词等级为2,以此类推,频次最小的词等级为D。若用f表示频次,r表示等级序号,则f×r=c(r=1,2,3,…;c为常数),即词频(f)与排列的序号(r)存在着定量关系。齐普夫词频分布定律的数学表达式为:g(r)=br-1,r=1,2,3(b为正常数)。
学术界的进一步研究显示齐普夫词频分布定律的适用范围有一定的局限性,尤其是对出现频率特别高的词和频率特别低的词,不能完全用f×r=c这一关系式诠释。于是1952年法国的B.Mandelbort运用信息论原理,重新解释了齐普夫定律,并得到齐普夫定律的修正公式:
![]()
式中f是词的频率,r是词的等级序号,C的值大于0,与出现概率最高的词的概率大小有关。a的值介于0和1之间,与词的数量有关,s的值大于0,与高频率词的数量有关。