4.3.1 实验设置
2025年09月21日
4.3.1 实验设置
(1)数据集
使用在新浪微博中爬取的数据作为在线社交网络跨媒体语义学习数据集,数据集信息如表4-2所示。
表4-2 在线社交网络跨媒体语义学习数据集统计信息
以关键词代表类别,每条获取的微博消息包括以下信息:文本、用户、时间、位置(即用户所在的省)以及图像URL。针对数据集的预处理操作如下:删除重复的微博以及过长和过短的微博;对与微博文本无关的图像数据进行过滤;将句子分割成单词;删除停用词和低频词。80%的数据作为训练集,剩余20%的数据作为测试集。
(2)评价指标
为了研究在线社交网络多特征概率图模型(MFPGM)对社交网络文本的语义表示能力,选择归一化的点对互信息(Normalized Pointwise Mutual Information,NPMI)以及UMass一致性指标对生成的语义质量进行评价。
(3)对比算法
为了研究在线社交网络多特征概率图模型(MFPGM)的性能,选取已有的文本语义表示方法进行比较。为了验证基于时空特性的在线社交网络跨媒体语义学习算法SCSL的跨媒体语义学习能力,选用现有的跨媒体语义学习算法作为对比算法,对比算法均采用LDA特征作为文本特征,以VGG特征作为图像特征。