11.2.6 Hierarchical Latent Dirichlet Allocation模型(...

11.2.6 Hierarchical Latent Dirichlet Allocation模型(Hierarchical LDA)

从文献集合中学习主题层次很有挑战性。Blei、Griffiths和Jordan(2010)提出了一种随机过程,在该过程中将概率分布赋值于无穷深分支树形成。LDA假设两两主题之间没有层次关系,因此,无法识别各种抽象的层次(例如,主题之间的关系)。Blei等人(2010)提出了一种嵌套的中国餐馆流程(Nested Chinese Restaurant Process,nCRP)作为层次主题模型方法,并应用贝叶斯非参数推理接近主题层次的后验概率。Hierarchical LDA数据处理与Hierarchical Clustering不同,首先,Hierarchical Clustering把每个数据(如单词)当作树状结构的“叶子”,然后合并相似数据节点,直至全部合并,整个过程最终形成一棵“树”。因此,树状结构的上层节点能概括它的下层子节点,也就是说上层节点与下层节点的关联概率较高。在Hierarchical主题模型中,树的每个节点是一个主题,由一组单词的分布组成,且上层节点并不概括子节点,但是能够反映相同路径中上层节点与子节点所共享的单词分布。