数据可视化分析

(四)数据可视化分析

本文经过使用自编码器模型压缩特征后,采用K-means算法对降维数据进行聚类分级,并结合手肘法与自然断点分类法来确定类别个数K,以此表示脱贫户的可持续发展能力的分类。从如下平均成本函数的下降折线图(见图26)也可以看出,当聚类类别数K=4时,成本函数曲线达到一个拐点处,因此选取聚类个数为4类。

图26 手肘法确定聚类个数

根据聚类的结果,将脱贫户的可持续发展等级划分为:低层次(易返贫)、边缘层次(边缘脱贫)、一般层次(一般脱贫)、高层次(稳定脱贫),即“红橙黄绿”四色分级预警信号灯。低层次表示脱贫户的生计能力较难维持生存,可持续发展能力弱,处于极容易返贫的状态;边缘层次表示脱贫户的生计能力仅能维持生存,处于返贫的边缘状态;一般层次表示脱贫户的生计状态基本达到稳定,具有一定的可持续性;高层次表示脱贫户的生计状态良好,并具有较强的可持续性。

从可视化三维聚类结果图(见图27)可以看出,对自编码器降维后的数据可以很好地将四个可持续发展类别的数据点给分隔开,并且每个类别内数据点都相对集中,不同类别的数据点较为分散,由此反映了最终聚类效果较为良好。

图27 降维可视化

为了更好地描述四个可持续发展等级的分布情况,本文对降维数据上的每一个维度都使用箱线图来直观分析四个类别的数据分布(如图28所示)。

图28 数据分布箱线图

通过采用熵值法计算得到各个发展影响因子的权重,对每个监测对象的数据进行加权平均和,得到对应的可持续发展指数值。经过对发展指数进行统计特征后,发现调研的监测对象可持续发展指数的均值为0.5133,最小值为0.3628,最大值为0.7348,指数的分布标准差为0.1652(见表10)。在四个可持续发展等级中,低层次的监测对象样本数占总体样本的19.00%。通过分析低层次样本的统计特征,发现他们的工资性收入、经营性收入占总收入的比重较低,劳动力缺失,身体健康状况不理想。这一结论也进一步支撑了使用随机森林、XGBoost、CatBoost、LightGBM集成的影响可持续发展指标因素的筛选结果。

表10 监测对象可持续发展指数统计特征(基于临翔区各乡镇)

边缘层次、一般层次和高层次的监测对象,分别有11213户、11849户和26006户,以及分别占总体样本的18.51%、19.56%和42.93%(见图29)。从整体上来看,临翔区的易返贫监测对象占比较低,一般脱贫和稳定脱贫的监测对象占比较高,因此临翔区的监测对象整体可持续发展能力较好,具有一定的自主持续发展能力。此外,四个不同层次的监测对象在可持续发展能力上差异化较大,若能带动低层次的监测对象可持续发展,缩小与高层次监测对象之间的差距,则临翔区的整体发展情况可进一步提升。

图29 可持续发展等级

注:易返贫即低层次,边缘返贫即边缘层次,一般脱贫即一般层次,稳定脱贫即高层次。