11.2.7 Citation LDA模型
2025年09月10日
11.2.7 Citation LDA模型
科学文献靠引用关系相互关联。图挖掘的一般做法是关注网络的连接结构(如,Getoor,Diehl,2005),这样做忽视了网络节点的主题特征。Erosheva、Fienberg和Lafferty(2004)提出了混合成员模型Link-LDA,该模型在考虑文献摘要及参考文献的前提下把文献按不同主题分组。Link-LDA把文献当作词袋(Bag of Words)和参考文献袋(Bag of Citations)。Chang和Blei(2010)提出了一种既考虑连接关系也考虑节点特性的关系主题模型。该模型可用于给新论文推荐参考文献,并根据文献的引用关系预测关键词。Nallapati、Ahmed、Xing和Cohen(2008)提出了Pairwise-Link-LDA和Link-LDA-PLSA这两个模型,并用这两个模型解决了主题模型框架内对文献及参考文献联合建模的问题。在Pairwise-Link-LDA模型中,对每对文献之间是否存在引用关系都进行建模,因此运算量非常大;而Link-PLSA-LDA模型解决了这一难题,它假设链接结构是二分图,并将PLSA和LDA合并成单一的图模型。对CiteSeer的实证研究表明这个模型与基准模型相比性能更佳,可以挖掘出引证文献和被引文献之间的主题相似度。Link-PLSA-LDA模型在引用推测方面表现更佳且具有高拓展性。