7.1 引 言

7.1 引 言

随着在线社交网络用户数量的不断增长,使得每天产生海量的社交网络话题。在线社交网络曾多次成为重大突发事件(如自然灾害和重大伤亡事件)的传播和分享平台。如果能从在线社交网络中及时发现国内外的突发话题,将有助于相关部门尽早地发现事件和言论,以便及时做出响应和防范。在线社交网络内容是嘈杂和分散的,并伴随大量的无意义信息和日常的普通话题。同时,在线社交网络内容篇幅比较短且动态变化,如何从社交网络短文本中发现高质量的突发话题是具有挑战性的科学问题。

为了解决上述问题,实现在线社交网络突发话题的自动发现,本章提出基于稀疏主题模型的在线社交网络突发话题发现算法(SBTD),构建基于“Spike and Slab”先验的稀疏主题模型(SRTM)。考虑到社交网络的突发话题的特点,假设一个话题在一段时间内被广泛讨论和分享,而在其他时间段很少或者几乎没有人讨论和分享,则认为该话题是一个突发话题。SBTD算法的核心是利用词的突发性作为稀疏主题模型(SRTM)先验,通过引入二值开关变量来决定话题的来源,SBTD算法不仅能够从在线社交网络中自动发现突发话题,也能够有效地解决社交网络上下文稀疏性问题。