11.2.2 Probabilistic Latent Semantic Indexing模型(pL...

11.2.2 Probabilistic Latent Semantic Indexing模型(pLSI)

Hofmann(1999)提出了Probabilistic Latent Semantic Indexing(pLSI)模型,在该模型中Hofmann引入了单词与文献间的潜在主题层z(见图11.1)。在此模型中,从文献d中生成单词w的概率是基于潜在主题层的,计算如下:

其中,pLSI并未给出潜在主题层的数学依据,因此它很容易出现严重的过度拟合(Blei et al.,2003)。