(七)模型小结

(七)模型小结

通过建模小组在前期准备阶段调研整理的专业论文资料以及政府相关报告的成果,确立了模型建立所需的监测对象数据指标项,共计28个影响指标。

为了进一步对影响指标进行筛选,并对监测对象的发展能力进行建模,团队采用机器学习中XGBoost、LightGBM、CatBoost等集成模型对发展能力指标的重要性进行排序。通过模型计算,筛选出重要度最高的8个指标,并将其作为判断监测对象自身发展能力的解释因素。考虑到原始数据本身维度较多,团队使用自编码器模型对多维指标数据降维,并采用K-means算法对降维数据进行聚类分级。此外,团队还结合手肘法与自然断点分类法来确定类别个数,以此表示监测对象的可持续发展能力的分类。

为进一步预测发展能力等级以及量化对新监测对象的返贫风险程度,本文分别采用所建集成模型预测发展等级并利用逻辑回归模型对返贫概率值建模(见图31)。通过对预处理后数据训练模型,在测试集上,集成模型的分类平均预测精度均达到90%以上,逻辑回归模型通过预测返贫概率值,进一步反映监测对象是否会返贫,最终模型预测正确率达到95.24%。经过多轮的数据测试,模型的返贫识别准确率稳定在95%左右,初步达到了产品上线的要求。后续,团队将模型服务打包,建立网站、开发App,通过互联网向奋斗在一线的基层干部提供服务,使得对重点户的返贫风险预测得更快、更准、更便捷。

图31 模型框架图