筛选特征案例分析
2025年09月10日
(三)筛选特征案例分析
考虑非收入特征对脱贫户属性划分的影响,例如“文化程度”“是否为党员”“劳动力人数”“健康状况”“家庭人口数”等(见图23),本文分别采用随机森林模型、XGBoost模型、CatBoost模型、LightGBM模型计算每个指标特征重要度(见图24)。为了进一步提高模型的泛化能力和稳健性,本文对多个模型的结果进行平均,最终得到如表9所示的特征重要性排序表。
图23 模型特征重要性对比(重要性从左到右依次降低)
表9 四个模型的指标特征重要性排序结果(前八项)
续表
图24 可持续发展影响特征的重要性排序柱状图(重要性从上到下依次降低)
这些特征从侧面影响到监测对象的可持续发展能力,例如劳动力人数、是否加入农业合作社、文化程度、是否为党员,侧面反映了监测对象进取向上的程度,以及其靠自身能力持续发展的基础面。另外居住环境与条件也会直接影响到监测对象的状态,居住条件的恶化从生理、心理上都会给居民带来负面作用,并反馈到其可持续发展能力上。
从随机森林、XGBoost、CatBoost、LightGBM模型集成的结果看,在对监测对象可持续发展能力的影响指标因素中,劳动力人数、农业面积、健康状况、是否加入农业合作社、文化程度、是否为党员、家庭人口数、住房面积这8项指标的影响较为显著。这些特征在整体特征重要性中占比达到了90%以上(见图25),侧面反映了筛选出来的8项特征具有较强的代表性和影响可持续发展的重要性。
图25 可持续发展影响特征的重要性热力图(重要性从左到右依次降低)