2.2 数据的预处理
为了提高系统的稳定性,说明所建立模型的有效性,在进行求解前对得到的数据进行预处理是很必要的。目的是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际,检查数据是否有错误或遗漏。
(1)解决不完整数据(即值缺失)的方法
在对数据进行筛选的过程中发现,部分数据精度明显低于同组其他数据的精度,即数据缺失,因此采用手工填入的方法对数据进行处理。用该组数据的平均值代替缺失的值,从而达到清理的目的。
(2)错误值的检测及解决方法
用统计分析的方法识别可能的错误值和异常值,计算各组数据的偏方差,剔除明显高于平均水平的值。
(3)重复记录的检测及消除方法
数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录。

图1 数据预处理步骤