5.1.2 共词分析
早在20世纪70年代中后期,法国文献计量学家就提出了共词分析法的概念。1986年,法国国家科学研究中心CNRS(Centre National de la Recherche Scientifique)的M.Callon、J.Law和A.Rip出版了《科学和技术动态的知识图谱》一书,介绍了使用共词分析法分析科学和技术发展演化的动态结构。随后几年,H.Qin也撰文专门讨论如何用共词分析法发现科学知识结构。共词分析经过30年的发展,已经在人工智能、科学计量学、信息科学和信息系统、信息检索等领域得到广泛应用。
共词分析的基本原理是统计一组词两两在同一篇文献中出现的次数,进而构建词与词之间的关系网络,分析这些词代表的科学和主题结构。共词聚类分析作为共词分析的一种重要方法,是在构建共词网络的基础上,以两词共同出现的频率为分析对象,利用聚类统计学方法,把众多分析对象之间错综复杂的共词网状关系简化为数目相对较少的若干类群之间的关系,并直观地表示出来的分析方法。在文献群的主题中,通过聚类分析,能把这些关联密切的主题聚集在一起形成类团,表达某一领域分支的组成。类团的组成、演化以及消失是共词聚类分析的重点。同时利用现代信息技术和统计软件图形显示功能,还能够将共词分析结果直观形象地展示出来,进而实现可视化的效果。
共词分析的整个过程可分为以下几个步骤:①确定分析单元。选择文献中的关键词、主题词作为共词分析的基本单元,且被分析的词汇最好是受控的、被统一标引的主题词。②选择高频词。为方便文献的组织与检索,标引人员用主题词对文献的内容进行分析、提炼,以数个主题词的组合、限定反映文献中的内容。因此文献集中关于某一问题的研究越多,则相应的主题词出现频次也越多。为简化统计的过程及减少低频词对统计过程带来的干扰,通常共词分析选择高频主题词为分析对象,但高频词数量的选择标准(即阈值)并不统一。在选择高频词时阈值设定过小,则不能如实反映学科知识点的构成;阈值设定过大,则会给共词分析过程带来不必要的干扰。确定高频词的方法一般是结合研究者的经验在选词个数和词频高度上予以平衡或者利用低频词分布规律判定高频词的界限。③统计共词频率。统计关键词对的出现频率,并设计共词矩阵,即N个高频词的共词分析,则设计一个N×N的共词矩阵。④计算共词矩阵。该步骤是共词分析中最重要的一步,可采用不同的统计学方法,揭示关键词网络中的信息,常用的统计学方法有因子分析、聚类分析、多维尺度分析等。⑤得出结论。结合相关学科知识对统计结果进行科学分析,深入地揭示隐含在文献群中的知识。