(二)模型简介

(二)模型简介

建立可持续发展评价体系后,获取特征重要性排名并筛选出代表特征是本文进行可持续发展等级划分的关键步骤。本文立足于利用深度学习技术和数学概率论知识,从筛选特征原理、降低样本维度和回归聚类分析三个方向进行建模,最终通过手肘法科学确定四个发展等级,即低层次(易返贫)、边缘层级(边缘脱贫)、一般层次(一般脱贫)和高层次(稳定脱贫),以及对应返贫概率。

1.筛选特征原理

考虑到可持续发展评估指标数量较多,有的指标携带特征信息丰富,有的指标则是无关特征信息。如果所有指标不经筛选全部作为训练特征,会出现维度灾难问题,甚至会降低模型的准确性。本文主要利用随机森林模型、XGBoost模型、LightGBM模型和CatBoost模型。

随机森林模型的原理主要是先利用袋外数据[20]计算袋外数据误差[21],然后随机加入干扰噪声改变袋外数据样本在特征X处的值并再次计算袋外数据误差,从而根据两次的数据误差得到特征X的重要性。XGBoost构建决策树的思想则主要基于预排序,其所需基学习器是通过初始化为一个常数,然后根据一阶导数和二阶导数迭代生成。LightGBM却是直接选择最大收益的节点来展开,在更小的计算代价上去选择需要的决策树控制树的深度和每个叶子节点的数据量,从而减少过拟合。而CatBoost作为一种能够很好地处理类别特征[22]的梯度提升算法,它实现了对称树,且其性能会优于其他增强学习算法。结合四类算法各自的优点(见表2)有利于提升本文模型在特征工程上的性能,进而更好地应用于实际场景之中。

表2 四种算法各自优点

2.降低样本维度

自编码器在优化过程中无须使用样本的标签,本质上是把输入的样本同时作为神经网络的输入和输出,通过最小化重构误差以此学习到样本的抽象特征表示。通过使用自编码器模型,本文将原本含有多个维度特征信息的原始数据进行压缩降维,并且最大限度地保留原始数据中的重要信息,得到浓缩信息的低维向量表示,从而可以用这些低维向量做后续的可视化分析(见图1)。

图1 自编码器网络结构

3.回归聚类分析

利用自编码得到的低维数据将影响可持续发展能力的重要特征进行了浓缩,从而提高了聚类的效果。本文将利用K-means聚类方法,对特征进行聚类分析,得到可持续发展等级,同时利用已有的高维数据特征通过分类和回归得到未来可持续发展等级和未来返贫概率。

(1)K-means算法

K-means算法是一种迭代求解的聚类分析算法。它尝试将数据集划分为K个定义的不同非重叠子组[23],其中每个数据点仅属于一个组且同组数据尽可能相似,异组尽可能不同。同时迭代计算数据点和群集质心[24]之间的平方距离之和,使之达到最小并趋于稳定。同时,考虑到K值的选择也会影响聚类效果,因此本文采用手肘法来选取聚类个数,其中聚类的个数即代表着可持续发展等级的个数。手肘法的核心指标为误差平方和(SSE),其计算公式为:

其中,Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中所有样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏。其与聚类数k的关系为:当k小于真实聚类数时,SSE的下降幅度会很大;当k大于真实聚类数时,SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓。这也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据真实合理的聚类数,这也是该方法被称为手肘法的原因。

(2)逻辑回归模型

对于特征筛选后得到的高维特征将会通过逻辑回归模型实现监测户返贫风险预测与返贫等级划分两个目标。逻辑回归是一种广义线性模型,适合数值型的二值型输出的拟合。它假设因变量y服从伯努利分布,利用Sigmoid函数进行分类。Sigmoid函数的形式如图2所示。

图2 Sigmoid函数

Sigmoid函数衡量的是输入数据x归属于类别1的概率,当x<0的时候,Sigmod(x)<0.5,可以认为x归属于类别0的概率较大,反之则认为x归属于类别1的概率较大。正是这个特性使得逻辑回归模型的返回值也可以作为分类的概率依据,且模型有可操作性和解释性。