11.2 主题模型

11.2 主题模型

目前有多种统计学方法可以用于从大量文献中自动抽取研究主题。图11.1是主要主题模型的盘子表示法,灰色与白色的圆环分别代表观测变量和潜在变量。箭头表示变量和盘子之间的条件性依赖关系(Buntine,1994)。在图中,d代表文献,w代表单词,ad代表合著者集合,x代表作者,z代表主题。α、β和μ是超参数,θ、φ和ψ是多项式分布的参数,分别代表主题、单词及出版方。表11.1给出了公式中各参数的含义。