1.3.2 在线社交网络时空主题模型(STTM)的建立
为了实现在线社交网络时空信息的表达,我们建立了在线社交网络时空主题模型(STTM),如图1-2所示。其中,阴影表示的变量是可观测变量,非阴影形式表示的变量是需要进行推理和预测的隐变量。表1-1是该模型所涉及的符号及其意义。该模型是一种概率主题模型,需要对其参数进行推导和计算。
表1-1 在线社交网络时空主题模型(STTM)的符号及意义
续表
图1-2 在线社交网络时空主题模型(STTM)的图模型
对在线社交网络时空消息m采用4元组(b,w,t,r)进行表示,其中,b表示该消息中的双词,w表示该消息中的单词,t表示该消息发布的时间特征,r表示该消息所处的时空区域。时空区域r从空间和时间两个维度描述了一个特定的区域。在相同时间范围与相同空间区域内同时出现的单词称为属于同一时空区域的单词。通过调整时间尺度或空间尺度,可实现时空区域的尺度的调整。例如,地理位置的划分尺度可以设定为“国家”“省份”或者“城市”等,时间的划分尺度可以是“小时”“天”或者“周”等。本章使用的空间尺度为“省份”,时间尺度为“天”。
在线社交网络时空主题模型(STTM)的输入数据为在线社交网络时空消息流。每条在线社交网络时空消息m均包含文本信息、时空区域信息和时间信息。同一个时空区域下的多个在线社交网络时空消息构成时空文档d r。同一时空文档中的单词具有相同的主题分布,每个双词中的两个单词共享同一个主题。设定时空文档的主题分布和主题的单词分布为多项式分布,并设定主题的时间分布为贝塔分布。
在线社交网络时空主题模型(STTM)将文本、时间和空间信息映射到主题语义空间中,获取在线社交网络时空信息的主题语义表示,实现在线社交网络时空信息的有效表达。通过在线社交网络时空主题模型(STTM)得到的每个主题同时融合了时空区域主题分布θr、主题单词分布φ与主题时间分布ψ。采用R表示空间区域数,K表示主题数。设定时空文档d r共享同一主题分布θr,并设定每个双词共享同一个主题k。给定一条在线社交网络时空消息,输入文本信息、时间信息、时空区域信息,根据在线社交网络时空消息的区域编号抽取其主题分布,依据主题分布抽取主题,生成双词中的每个单词与时间戳。在线社交网络时空主题模型(STTM)的生成过程描述如下。
(1)对每个时空文档d r=d 1,…,d R,根据参数α,抽取时空文档的主题分布~Dirichlet(α)。
(2)对每个话题k=1,…,K,抽取主题-时间贝塔分布Beta(ψk),并根据参数β抽取主题-单词分布φk~Dirchlet(β)。
(3)对每个在线社交网络时空消息m=1,…,M,给定其时空区域rm,可以得到其主题分布。
(4)对每个在线社交网络消息m中的双词b i:
抽取双词的主题分布k~Multi();
抽取每个单词分布w i1,w i2~Multi(φk);
抽取时间戳分布tm~Beta(ψk)。