4.3.2 实验一:MFPGM与对比算法的文本语义表示能力比较

4.3.2 实验一:MFPGM与对比算法的文本语义表示能力比较

在实验一中将本章提出的在线社交网络多特征概率图模型(MFPGM)与现有的文本语义表示算法进行对比。通过主题单词分布观察文本语义表示的语义一致性,采用评价指标对文本语义表示质量进行衡量。

(1)MFPGM与对比算法的主题-单词分布比较

双词话题模型BTM由于建模了双词模式,可以克服在线社交网络短文本的语义稀疏性,具有较好的短文本语义表示能力。选取双词话题模型BTM作为对比算法,选择MFPGM与BTM的3个公共主题,列出主题下的前12个单词。通过分析单词与主题的语义一致性,比较MFPGM与BTM的语义分析建模能力。

依据单词与主题的语义相关性,将单词分为两类。一类是与主题相关的单词,对这类单词以普通字体展示;另一类是与主题不相关的单词,对这类单词用斜体加下划线形式进行展示。在每个算法生成的主题单词分布中,与主题语义相关的单词越多且排序越靠前,则说明该算法的文本语义表示能力越强,反之,则表示其文本语义表示能力越差。相比BTM算法,MFPGM中主题下的单词与主题具有较好的语义一致性,表明在线社交网络多特征概率图模型(MFPGM)相比双词话题模型BTM具有更强的文本语义表示能力。

(2)MFPGM与对比算法的NPMI值和UMass值比较

采用NPMI与UMass两个常用的语义一致性客观评价指标对MFPGM的语义质量进行评价。表4-3是MFPGM与对比算法在数据集上的NPMI值比较,表4-4展示了MFPGM与对比算法在数据集上的UMass值。

对于NPMI指标和UMass指标,TOT均取得了比LDA更好的结果,这是因为TOT在其主题生成的过程中建模了时间特征,提高了生成的语义表示质量。BTM、UCT、WNTM和PTM这类针对短文本的语义建模方法,相比LDA和TOT均取得了更高的NPMI值和UMass值,这是因为针对短文本的语义表示方法解决了短文本的语义稀疏性问题。在BTM、WNTM和PTM中,BTM的算法性能最为稳定,说明建模双词特征有利于克服短文本语义稀疏性。UCT相比BTM取得了更高的NPMI与UMass值,这是因为UCT同时建模了双词特征和用户特征,表明用户信息有助于提高算法的文本语义表示能力。

MFPGM模型由于有效地解决了语义稀疏性问题,并且同时建模了在线社交网络的多种特征(时间、用户和文本),因此具有较好的文本语义表示能力,在数据集上取得了最高的NPMI值与UMass值。相比对比算法LDA、TOT、BTM、UCT、WNTM以及PTM,MFPGM在数据集上的NPMI值分别提升了40.27%、35.49%、22.54%、13.78%、15.91%以及10.76%,UMass值分别提升了15.85%、12.72、7.55%、7.03%、7.04%以及6.63%,NPMI值平均提升了23.12%,UMass值平均提升了9.47%。

表4-3 MFPGM与对比算法的NPMI值比较

表4-4 MFPGM与对比算法的UMass值比较