3.2.1 SCTE算法的研究动机

3.2.1 SCTE算法的研究动机

基于动态自聚合主题模型的在线社交网络文本主题表达算法(SCTE)通过建立动态自聚合主题模型(SADTM),自聚合短文本为长文本,并通过捕获在线社交网络主题的变化,实现在线社交网络文本主题的动态表达。该算法的目标是建模微博流数据的主题动态变化,并有效地解决社交网络上下文稀疏性问题。SCTE根据其自身的生成过程构建长文本(在下文中长文本也称之为聚合文档),每个聚合文档由一组可观测且无序的短文本分片构成,且聚合文档与短文本之间的分配关系是未知的。SCTE算法在没有任何外部语料库下,能够自适应地聚合短文本为长文本,进而解决社交网络上下文稀疏性问题。为了捕获社交网络流数据主题的动态变化,通过利用先前的主题分布和词分布来推导当前时间片的主题分布和词分布。