11.2.1 语言模型(LM)

11.2.1 语言模型(LM)

在自然语言处理及信息检索领域,建立主题模型的早期方法是语言模型。在此模型中没有潜在变量(见图11.1)。对于某查询请求q,查询词与文献之间的概率计算如下(Ponte,Croft,1998):

图11.1 各种LDA

其中,tf(w,d)表示单词w在文献d中出现的频率,Nd是当前文献中单词的数量,ND是整个文献集中单词的数量,tf(w,D)表示整个文献集中单词w的数量,λ是Dirichlet光滑因子,通常等于文献集中的平均文献长度(Zhai,Lafferty,2001)。