11.1 引言

11.1 引言

聚类算法广泛应用于学术交流研究。大多数聚类算法基于单词的相似性对单词进行聚类,也称为“距离”。主题模型是高一层次的聚类方法,它基于隐藏的主题将单词进行分类。主题模型方法之所以能够挖掘出文档集合中隐藏的主题是基于以下的原理:假设一篇文献是关于某一主题的,那么与这一主题相关的单词在此文献中出现的频率要高于它在与该主题不相关的文献中的概率。例如,“雨”和“雪”常常出现在谈论天气的文献中,而“苹果”和“葡萄”常常出现在谈论水果的文献中。

实践表明,在分析及总结大规模文本数据时,主题模型方法是有效的。主题模型方法能处理流数据,还能处理生物医学数据、图像、视频及社交媒体(Blei,2012)。主题模型的目标是将在文本中共现的一系列单词划分为主题,并对表达同一主题的单词赋予较高的概率值。主题模型最大的好处在于使用模型前不需要对数据集进行预注释,而注释过程通常需要耗费大量的人工操作进行注释或者标注,导致结果质量在很大程度上依赖于训练数据集。

在我们看来,在众多主题模型算法中,LDA(Latent Dirichlet Allocation)是最简便的。LDA算法的思路是:一篇文献包含多个主题,每个主题需要多个特定词汇来描述。例如,一篇题为Topics in Dynamic Research Communities:An Exploratory Study for the Field of Information Retrieval的论文,这篇论文包含如下主题:topic modeling、community detection、scholarly communication及information retrieval。于是,诸如“LDA”“author-conference topic modeling”以及“statistical methods”等词条是用来描述“topic modeling”这一主题的;“Newman's method”“community detection”“clustering”以及“graph partition”是用来描述“community detection”这一主题的;“coauthorship network”“research topics”和“scientific collaboration”是用来描述“scholarly communication”这一主题的;“information retrieval model”“information retrieval method”“use case”和“search”是用来描述“information retrieval”这一主题的。

与朴素贝叶斯模型一样,LDA是一种生成模型,是所有变量的全概率模型。在生成模型中,数据在生成过程中产生,该过程可定义为观测变量和隐藏变量的联合概率分布。生成模型与判别模型(如线性回归模型)相反,判别模型只对隐藏变量在观测变量上的条件概率进行建模。在LDA模型中,文献中的单词是观测变量,主题是隐藏变量。LDA模型有这样一个假设:作者首先考虑一篇论文包含哪些主题,然后选择与这些主题相关的单词撰写论文。所以在LDA中,文献集合中所有的论文都包含相同的主题集合,只是每篇论文包含各主题的比例不同(Blei,2012)。

主题模型算法的目标是从全文本中自动地捕捉主题,这主要是借助文献中观测到的单词来推测隐藏的主题结构(例如文献主题分布、单词主题分布)。通常,主题的数量由perplexity决定,可以探索性地将数量范围控制在20~300(Blei,2012)。Perplexity通常被用于测量概率分布拟合一个数据集的程度。perplexity等于每个单词似然比的几何均数的倒数,被用于评估模型。Perplexity的值较低说明该模型可达到的一般性能(Blei,Ng,Jordan,2003)。主题模型内在的推理技术不受语种及文本内容的影响。主题模型捕捉语言的统计结构,该结构代表着主题内容。LDA通过推论(例如Gibbs抽样)及最优化(例如变分法)(Asuncion,Welling,Smyth,Teh,2009)接近后验分布。

本章安排如下:11.2节介绍几个应用较广泛的主题模型。11.3节概述了如何使用主题模型研究学术交流。11.4节结合具体案例介绍TMT(一款由斯坦福大学开发的主题模型软件)的详细指导手册,该案例为:利用TMT对1990—2013年发表在《美国信息科学(和科技)社会》(JASIS(T))上的2434篇文献进行分析。最后是本章小结。