9.2.1 数据预处理

9.2.1 数据预处理

这一部分着重介绍本书对数据的预处理步骤。数据预处理是机器学习中非常重要的一步,它可以将原始数据转换为模型可理解的格式。由于来自现实世界的数据并不完全适用于模型,因此有必要做一些数据预处理工作来满足算法的要求(Makridakis,2017)。

数据预处理的标准步骤包括数据清理、数据集成、数据转换、数据缩减和数据离散化。数据清理通过填充缺失值、平滑噪声数据或解决数据不一致等过程来完成。数据集成是指整合具有不同表征的数据并解决数据内部的冲突。数据转换即数据规范化、数据聚合化和数据泛化。数据缩减旨在精简数据仓库中的数据。数据离散化通过划分属性区间的范围来减少连续属性的数值。

本书所采取的下一步是通过对数据的理解进行的特征选择,所有特征都对预测模型十分有效且合理,除了特征项“企业代码”。“企业代码”是每个公司的特有标识,不具有共性。所以本书筛选出该特征并预存其他特征以供未来使用。

(1)数据规范化

对于数字特征来说,通常可以使用简单调节、逐样本均值消减和特征标准化等方法进行规范化(Zhou et al.,2012)。本书所使用的数据中,特征项“企业年龄”“政府资金支持”等都已通过特征标准化进行规范。特征标准化指的是(独立地)设置数据的每一维度,使其获得零均值和单位方差。这是标准化中最为普通的方法,也是最通用的方法。实际上,可以通过从数据集中计算各维度的均值,然后用各项减去该均值项来实现此方法。接下来,每个维度都除以它们的标准偏差。

对于绝对特征“所有制”“行业类型”“企业规模”“园区成熟度”等,独热编码常常被用于特征处理。它使企业的每一个特征都具有相等的价值,这比用数字进行简单的替换更合理。

(2)缺失数据重建

在一次观测中,如果一个变量没有数据值会造成数据的缺失。数据缺失十分常见,并且可能会显著地影响从数据中得出的结论(Gandomi et al.,2015)。选择合适的处理方法会产生最少的估计偏差。这里有几个常用的方法来解决该问题。第一个是删除法,即逐对剔除法或成对剔除法。第二个是单一填补法,即均值/模式替换法、虚拟变量法或单回归法。而基于模型的方法是最大可能性法或多重虚拟值法。对于本书中所用的数据,缺少的值被一个固定的数字(如-1)代替,并且过滤掉缺失比例过大(如80%)的值来避免对模型结果的影响。