7.4.2 数据集

7.4.2 数据集

本节采用的数据来源于公开数据集Extrasensor,数据集由加利福尼亚大学圣迭戈分校(UCSD)的研究人员于2015至2016年收集,共包含60名UCSD的研究助理和UCSD的学生的数据。数据是使用Extrasense移动应用程序收集的,该应用程序每分钟自动执行20秒的“录音会话”。每次记录过程中,该应用程序从手机的传感器或手表收集测量数据,包括:手机的加速度计、陀螺仪和磁力计(采样频率为40 Hz)、音频(采样频率为22 kHz,然后处理为MFCC特征表示)、位置、手表的加速度计,数据均来源于实验者的真实生活,通过实验者的智能手机和智能手表上传感器采集相关的物理信号进行自动上下文标记。这个数据集还包含不同的时间间隔内实验者选择性自我报告的离散情绪。实验者共有49种不同的离散情绪(如活跃、平静、快乐、困倦等),间隔时间从1分钟到几天不等。研究人员通过结合各种信息源(如位置和其他标签)对自我报告的数据进行处理,以使其可靠。

传感器的测量记录为每20秒采样一次,数据收集周期为每个人3到9天不等。各实验者的样本数量从1164到6263不等。数据集包含二元变量和连续变量。总的来说,这些特征可以分为以下几类。

(1)运动数据:包含了3个智能手机传感器(一个加速计、一个陀螺仪和一个磁强计)和2个智能手表传感器(一个加速计和一个指南针)的原始测量值计算出的138个特征,这些是连续变量。

(2)声音数据:包含了28个原始特征,计算结果为13个Mel频率倒谱系数的平均值和标准差。

(3)位置数据:包含了根据每分钟人员的相对位置和运动变化测量的17个位置特征。

(4)手机数据:包含了28个指示手机感知状态的二进制功能,如应用程序状态、电池插入、电池状态、铃声模式、Wi-Fi状态、屏幕亮度和电池电量。(https://www.daowen.com)

(5)环境数据:包含了5个环境变量,如光、压力、加速度、湿度和温度。但是存在许多缺失值,因为并非所有手机都具有所有传感器。

(6)时空数据:从记录的时间戳中设计了5个变量来表达情绪状态和转换的时间模式。由于数据集非常稀疏,我们计算了分钟变量的时间差,以测量自上次记录以来经过的分钟数。其余4个变量是分类变量。

(7)上下文数据:包含了51个二元上下文标签,如室内、室外、饮食和在车里,可以帮助识别主导情绪。

(8)情绪数据:包含了49个标签,如活跃、恐惧、警惕、愤怒等。

Extrasensor数据集是在人体完全不受约束的条件下采集的数据,而且它不仅包括了简单的基础活动,还包括了很多具有上下文标签的复杂活动。该数据集是使用智能手机和智能手表传感器从60名受试者中收集超过30万分钟的标记数据。目前公开的数据集大多是单个传感器或者只包含惯性传感器进行采集的数据,而且数据采集一般在实验室进行,受试者按照研究者的规定在指定时间内完成指定的动作。或者佩戴一些不舒服或不自然的传感器,它可能会导致人的行为与真实生活中的不同,这样采集的数据与人在实际生活中活动情况有所差异,导致在实际进行活动识别的情况下准确率降低、泛化性能较差。

该数据集完全来自于个人日常生活中的真实活动,所以该数据集的采集过程满足以下三个要求:第一,该数据只是利用智能手机和智能手表佩戴到人的身上进行数据采集的,不会为用户增加额外的负担,影响自然的行为活动;第二,用户可以随意放置手机的位置,而不受研究者规定强制放置到指定位置;第三,用户按照自己的时间表展开活动,完全不受研究者的规定进行。根据以上三点要求采集到的数据也具有以下三个特点,分别是存在更多的噪声数据、存在大量的缺失值、数据集还存在数据类不平衡现象。这些特点都是现今具有挑战性的任务,也是亟待解决的问题,所以该数据集是非常具有研究价值的。