7.2.4 基于“Spike and Slab”先验的稀疏主题模型(SRTM)的建立
假设突发性强的词对更加可能由突发话题产生,而突发性相对平稳或者较弱的词对更可能由一般话题产生。当突发事件或者话题出现时,词对的变化可能更加频繁或者剧烈,这些频繁出现的词对为在线社交网络突发话题发现提供了重要的依据和线索。建立基于“Spike and Slab”先验的稀疏主题模型SRTM,该模型通过直接建模词对的生成来产生更多的词共现信息,并利用词对的突发性作为先验引导突发话题的发现,采用基于“Spike and Slab”先验的弱平滑先验来解耦发现的突发话题的稀疏和平滑。整合上述属性到主题模型中,实现突发话题的建模。与传统主题模型建模文档生成不同的是,SRTM直接建模词对的生成,而不是单独词的生成来学习更一致性的主题。
“Spike and Slab”先验中的开关变量表明主题是否与突发话题一致,也就是下文中定义的是否为一个聚焦主题。由于“Spike and Slab”先验可能会产生空选择问题,将导致概率分布的含糊不清。通过在SRTM中直接引入弱平滑先验来避免概率分布的含糊不清,并简化采样过程以确保模型的稳定性。
假设词对P在时间T出现次,由于词对可能被定义为普通词或者突发词,可以将词对的生成频次拆分为两个组成部分,其中
表示由一般话题产生词对的数量,而
表示由突发话题产生的词对的数量,得到如式(7-1)所示的形式化表示:
在一段时间内几乎是恒定不变的,
则在不同的时间段内动态变化。当突发话题出现时,相关的词会在这段时间内急剧产生,
的变化较为剧烈。相反,如果没有突发话题出现时,
会趋于0。可以利用
的均值来估计
的值。在前M个时间段内,
均值的计算如式(7-2)所示:
利用式(7-3)可以得到的估计值
:
其中,和
是不能被观测到的,τ是一个相对较小的正数。
在得到的值后,通过时间及频率来推导在t时刻词对由突发话题生成的概率,计算公式如式(7-4)所示:
其中,表示在T时刻词对P的突发概率,表明词对P在T时刻比在其他时刻出现的更频繁,更有可能是由突发话题生成。表7-1列出了基于“Spike and Slab”先验的稀疏主题模型(SRTM)的变量和标号。
表7-1 基于“Spike and Slab”先验的稀疏主题模型的变量和标号
定义7-1:主题选择器。给定短文本数据集,主题选择器bz是一个二值开关变量表示选择的主题是否与突发话题聚焦。bz通过伯努利分布进行采样。
定义7-2:平滑先验和弱平滑先验。平滑先验α是狄利克雷超参数,用于平滑主题是否被选择器选择。而弱平滑先验也是超参数,用于平滑主题没有被选择。由于
,故称
为弱平滑先验。
定义7-3:聚焦话题。如果主题选择器bz=1,表明话题是一个聚焦话题。对于数据集,定义为聚焦话题。
1.SRTM模型建模过程
词对从话题中直接生成,而词对的突发性与话题的突发性密切相关。因此,可以定义词对为普通使用或者来源于突发话题。基于“Spike and Slab”先验的稀疏主题模型(SRTM)通过学习词对的突发性实现社交网络突发话题的建模。定义一个二值开关变量π来决定词来自一般话题还是突发话题。当“π=0”表示词对来源于一般话题,“π=1”表示词对来源于突发话题。利用词对的突发概率编码突发话题的先验,并通过带有突发概率先验的伯努利分布作为开关变量π的先验分布。引入分布θ表示突发话题分布,ϕk表示突发话题中的词分布,ϕc表示一般词分布。利用平滑先验和弱平滑先验解耦主题分布的稀疏和平滑。基于“Spike and Slab”先验的稀疏主题模型(SRTM)通过利用RNN和逆文档频率(IDF)构建权重先验β替换传统主题模型中的β,进而能够有效地学习词对的内部关系。图7-3为基于“Spike and Slab”先验的稀疏主题模型(SRTM)的组成,其中阴影部分表示可以观察到的变量。
图7-3 基于“Spike and Slab”先验的稀疏主题模型(SRTM)的组成
在时间t,基于“Spike and Slab”先验的稀疏主题模型(SRTM)的生成过程如下。
(1)对于D,基于超参数γ0和γ1采样辅助变量η~Beta(γ0,γ1),基于辅助变量,利用伯努利分布采样主题选择器bz~Bernoulli(η),基于平滑先验和弱平滑先验采样突发话题分布。
(2)对于每个突发话题,利用基于RNN和IDF学习到的超参数βi和βj采样词对中的两个词分布ϕk,1~Dir(βi),ϕk,2~Dir(βj),同时,采样一般词分布ϕc,1~Dir(βi)和ϕc,2~Dir(βj)。
(3)对于每个词对p i∈P,基于估计的词的突发概率采样二值开关变量π~Bernoulli(μw):
如果π=0,根据多项分布分别采样词w i,1~Multi(ϕc,1)和词w i,2~Multi(ϕc,2)。
如果π=1,根据多项分布采样突发话题z~Multi(θ),并采样词w i,1~Multi(ϕz,1)和词w i,2~Multi(ϕz,2)。
2.模型的参数估计
利用吉布斯采样方法采样开关变量π和主题选择器b z。设置和γ0等于1。采样公式分别如式(7-5)和式(7-6)所示:
采样主题选择器bz:在采样过程中借助η作为辅助变量来进行计算。给定联合条件分布如式(7-7)所示:
通过联合条件分布,以η作为条件,迭代采样主题选择器bz。对于超参数α,利用带有对称高斯的Metropolis-Hastings分布进行采样。对于参数γ1,利用伽马先验进行设置。I[·]表示一个指示性函数,。