11.2.1　语言模型（LM）

2025年09月10日

版权

11.2.1　语言模型（LM）

在自然语言处理及信息检索领域，建立主题模型的早期方法是语言模型。在此模型中没有潜在变量（见图11.1）。对于某查询请求q，查询词与文献之间的概率计算如下（Ponte，Croft，1998）：

pagenumber_ebook=259,pagenumber_book=241

图11.1　各种LDA

pagenumber_ebook=259,pagenumber_book=241

其中，tf（w，d）表示单词w在文献d中出现的频率，Nd是当前文献中单词的数量，ND是整个文献集中单词的数量，tf（w，D）表示整个文献集中单词w的数量，λ是Dirichlet光滑因子，通常等于文献集中的平均文献长度（Zhai，Lafferty，2001）。