1.2 在线社交网络跨媒体时空信息的获取与预处理

1.2 在线社交网络跨媒体时空信息的获取与预处理

利用开源的分布式爬虫算法对新浪微博数据进行分布式爬取。对于每条消息,根据其时间信息确定微博的时间范围,将发布该消息的用户在此时间范围内发布的所有微博收集到实验数据集中。获取的每条社交网络消息包含以下信息:文本、图像、时间和位置信息。对在线社交网络消息中的时间信息、位置信息、文本信息以及图像信息进行获取。在线社交网络消息发布时会对每条消息发布的时间进行记录,该时间信息显式存在。根据时间的起止范围对时间信息进行归一化,将时间转化成0~1的数值。

在线社交网络位置信息的获取相对复杂,位置信息可以分为细粒度位置信息和粗粒度位置信息。其中,细粒度位置信息是指用户的签到信息,表示用户所在的经纬度。粗粒度位置信息是指用户的注册地信息,该信息为用户所在的省份或者城市,采用用户的注册地作为位置信息。将用户注册省份作为位置信息,对不同的省份进行相应地编码。

为了获取在线社交网络中的文本信息,需要对获取的在线社交网络噪声数据进行清洗,将过长或者过短的社交网络消息删除,保留原创消息,去除转发消息。对获取到的文本进行分词、去停用词、去低频和去高频词等预处理操作,获取文本语料并构建字典。由于在线社交网络文本较短,对同一窗口内共同出现的单词设置相同的主题比传统的主题模型具有更强的语义表示能力,因此将文本的长度看作窗口大小,构造双词集合。

在线社交网络中的图像数据往往与文本数据共同出现,对于原始信息采集过程中通过关键词获取的微博,使用网络文本解析技术将微博中包含的图像URL单独解析出来,通过图像URL将对应的图像数据进行分布式存储。为了保证获取到的图像与文本描述的事件相符,使用人工标注的数据训练一个CNN分类器,对获取到图像的相关性进行判定。