4.1 引 言
2025年09月21日
4.1 引 言
用户在发布微博时,除了采用文字描述外,往往伴随使用相关的图像或者视频,导致在线社交网络中存在大量的跨媒体数据。通过对在线社交网络的跨媒体数据进行语义学习,为其建立公共语义空间,是实现精准搜索必不可少的过程。不同模态特征的语义表示质量对跨媒体语义学习的效果有着较大的影响,语义表示质量越高,跨媒体语义学习的效果越好。
由于社交媒体数据的文本简短且不规则(如新浪微博中的微博长度通常短于140个字符),导致社交网络数据短文本存在语义稀疏性的问题。现有方法获取的文本语义表示的质量不高,在不同时空背景下的相同文字内容指代的具体含义不同,例如“车祸”在不同时间和地理位置中所指的具体车祸事件不同。此外,具有不同兴趣与背景的用户在对相同单词进行解读时,其联想到的内容也有所不同,如食品领域的从业人员与科技领域的从业人员在对“小米”进行解读时,前者的关注点在于食品“小米”的口感、烹饪方法与营养价值等,后者更倾向于了解科技公司“小米”相关的信息。
针对上述问题,本章提出了基于时空特性的在线社交网络跨媒体语义学习算法SCSL,通过跨媒体搜索实验验证了所提出的SCSL算法的有效性。