1.3.4 在线社交网络消息的文本主题语义表达

1.3.4 在线社交网络消息的文本主题语义表达

通过在线社交网络时空主题模型(STTM)可以获得整个时空文档的主题分布以及主题在单词上的分布,但是并不能直接得到每条在线社交网络消息中的文本的主题分布。因此,需要根据时空区域-主题分布与主题-单词分布对其进行推断。

表示第m个在线社交网络消息中文本的主题分布,是一个k维的向量,每维元素表示该文本属于每个话题的概率。由于一条在线社交网络消息的文本的主题分布等价于这条消息中所有双词的主题分布,假定处于时空区域r的消息m包含B m个双词,基于链规则可以得到消息m中整条文本属于主题k的概率:

设定双词的主题分布条件独立于双词所处的整条文本,可将式(1-8)写为:

基于贝叶斯公式和区域-主题分布与主题-单词分布,可通过式(1-10)计算得到:

其中,θrk表示时空区域r下主题k的概率,w m,i,1和w m,i,1分别表示第m个文档中第i个双词的第1个单词和第2个单词。φk,w表示主题k中单词w出现的概率。可以进行如下估计:

其中,表示第m个文本中第i个双词出现的次数。