11.2.4 Author-Topic模型

11.2.4 Author-Topic模型

Rosen-Zvi、Griffiths、Steyvers和Smyth(2004)提出了Author-Topic模型,该模型能够呈现文献的内容和作者的兴趣。在本模型中,从决定撰写包含若干主题的文献d的作者群ad中,随机选择一个作者。单词w来自特定作者的主题分布。有两个潜在变量:z和x。计算这些变量的公式为:

其中,zi和xi分别表示将文献中的第i个单词分配给主题j和作者k,w表示第i个单词是字典中的第m个单词,z-i和x-i代表除单词i之外的所有主题与作者赋值,表示作者k分配给主题j的次数(不包括当前的例子),随机变量φ(给定主题的单词概率)和θ(给定作者的主题概率)计算如下:

该模型可用于向学术期刊推荐同行评议专家。该模型的结果是一系列主题,每个主题都与排名靠前的作者和单词相关。排名靠前的作者并非是相应领域内的高被引作者,而是使用与某一主题相关的单词最多的高产作者(Steyvers,Smyth,Griffiths,2004)。某一主题排名靠前的单词是作者在写某一方面的论文时选择概率高的单词。