7.4.4 数据处理
2026年01月16日
7.4.4 数据处理
1.数据准备及清洗
数据集中有18名实验者的样本,样本含有的情绪数据超过1000个,缺失数据不到90%。因此,本书研究中以该18个实验者的数据构成情绪转化数据集,数据集中共有49个离散的情绪标签,使用英语单词情感规范(ANEW)将49个离散的情绪标签映射到PAD模型的愉悦(P)、兴奋(A)和支配(D)3个维度。ANEW是由情绪和注意力研究中心开发的为研究情绪和注意力的研究者提供的标准。最新的数据库包含了近14000个英语单词的情感含义[55],由1827名参与者评分,他们的年龄、职业和教育程度各不相同。数据集中每个语言情感标签被转换成3个维度的连续值,取值范围为1~9,其中1和9分别表示在相应的PAD维度中的最低和最高强度。首先通过分别计算3个维度的绝对值最大值来决定一个人在任何时间点的主要情绪维度,然后根据绝对值最大值的正负性考虑将愉悦分为不和谐、高兴2种情绪状态,兴奋分为劝阻、唤醒2种情绪状态,支配分为顺从和支配2种情绪状态。按{1,2,3,4,5,6}赋值,并设置为特征属性“emotion”,完成将文本的情绪标签映射为数值。
同时,删除了数据集中缺失数据达到80%的特征,以及地理位置数据。缺失值都被一个大的负数代替以表示缺失,并通过去除均值和缩放到单位方差来标准化特征。最后原始数据共有104个特征,其中标签类数据为19个。(https://www.daowen.com)
2.重采样
由于数据稀疏,目标变量过于不平衡。在原始数据中,每5分钟间隔的样本数从0到5不等。本书的研究旨在检测较小时间间隔内的情绪转变和状态。因此,我们以每5分钟采样一次的频率重新采样所有数据。在重采样过程中,本节通过取5分钟间隔内所有连续特征的平均值、所有二元特征的总和以及有顺序特征值的最大值来作为样本。