八、决策树模型

八、决策树模型

(一)概念

决策树是由节点和边组成的。其中节点包括根节点、中间节点和叶节点。根节点是决策树的第一次分类,之后在每个中间节点选择规则对数据进行分类,使得数据空间被划分为更多的子空间。决策树模型可以依据算法对数据集自动执行。具体算法包括ID3、C4.5和Cart等。

(二)模型设计

ID3是决策树模型中较为经典的一种,其中熵是由信息学家Shannon引入信息论用来描述信息的不确定性的。假设随机事件α只有有限个不相容的结果状态A1,A2,…,An,它们出现的概率为p(A1),p(A2),…,p(An),定义事件α的熵为:图示

由于一个系统的有序性与信息熵成反比,所以最优的解决方法就是让熵减少量最大的划分方法,划分后熵的减少量就是信息增量。因此,决策树分支的划分依据应该是选择最大的信息增量。

假设输入变量为X1,X2,…,Xs,定义熵信息减少量为I(α,Xi)=H(α)-HXi(α)。其中HXi(α)为事件α在事件Xi发生时的条件熵,I(α,Xi)取值与表示决策树分类信息输入变量X呈正相关,那么就可优先将Xi作为分类标准对树根或者节点进行分离,直到达到最后分类中止准则时结束。

(三)应用

决策树模型具有分类规则直观、能够输出各属性重要性、分类精度高等优点,被广泛应用于多个领域。决策树模型最早由Breiman和Friedman分别独立提出,随后被引入信用评分领域,如Coffman(1986),Ho(1988),Loris(2009),刘玉峰等(2013)等。刘玉峰等(2013)应用决策树suBagging的方法(Bagging的改进方法,更加适用于信用评分数据的一些特性)对UCI数据进行了集成。结果表明,suBagging决策树方法对个人信用评分的精确度有较大的提高。随机子空间集成和Bagging集成方法都能有效控制大量出现的噪声数据,同时对处理分散在所有特征集范围内的冗余信息有着很好的剔除效果。(https://www.daowen.com)

(四)决策树模型的优势及不足

1.优势

决策树模型理论较容易理解,并且计算量相对较小。

2.不足

①实际应用中对有时间顺序的数据比较难预测,需要完成很多的预处理工作

②研究问题往往不是单一的,随着复杂性的增加,决策树模型会经常出现组合爆炸,导致效率不高。

③由于研究数据的属性真值也有一定的置信度,决策树模型不能处理构建和分类过程中的这类不确定数据。