数据预处理流程

(一)数据预处理流程

对收集的原始数据,本文采用如下的数据预处理流程(见图20)。

图20 预处理流程

由于原始数据中存在一些缺失值和数值异常值,首先对缺漏值进行查补删减,然后对于异常值,采用拉依达准则进行处理。拉依达准则又称为3σ准则(见图21),即先假设一组数据只有随机误差,对它进行计算处理得到标准偏差,再按一定的概率确定一个范围,凡是超过了这个范围的误差,就不属于随机误差,含有该误差的数据就应该被删除掉。在正态分布里面,σ表示的标准差,μ表示均值,x=μ是图像的对称轴。

图21 3σ准则

本文筛选出具有异常值的5个特征变量并求得均值μ、标准差σ。考虑到数据服从正值分布,所以只除掉v>3σ+μ的值。

由于每年的数据的特征项个数不同,本文将这些年中的公共特征进行抽取,并且删除一些无关特征后,最终得到40个数据特征(见表8)。

表8 主要特征