11.2.3 Latent Dirichlet Allocation模型(LDA)
LDA给出了潜在主题层的概率模型(Blei et al.,2003)。对于每个文献d,主题上的多项式分布θd是从参数为α的Dirichlet分布中抽样得到的。对于每个单词wdi,主题zdi选自主题分布。单词wdi由特定主题多项式分布φzdi得到。表11.1为不同LDA公式的符号及含义。
表11.1 不同LDA公式的符号及含义

续表

从文献d中生成单词w的概率是

因此,文献集D的似然定义为

其中,ndz表示主题z与文献d相关的次数,nzv表示主题z中生成单词wv的次数。对模型的解释为:作者首先确定主题,然后使用与这些主题高度相关的单词撰写论文。