9.1.3　数据模型

2025年09月26日

版权

9.1.3　数据模型

为了明确捕捉可能影响企业效率的重要因素，并帮助企业领导者选择更好的长期发展策略，本书采用了许多不同的机器学习模型，如决策树、随机森林、神经网络、XGBoost等。本章主要介绍了这些模型的基本原理。

（1）决策树模型

决策树有两种类型。一种类型的决策树常用于决策分析，其结构类似于流程图且包含着决策过程和结果。如图9.2（a）所示，这种类型的决策树由三种节点组成：决策节点、机会节点和终节点。另一种类型的决策树被用作机器学习的预测模型，如图9.2（b）所示，它基于若干输入变量来预测目标变量的值。本部分重点介绍后者，称其为决策树学习。

树状模型方法将特征空间划分为一组矩形，然后在每个矩形中嵌入一个简单的模型（如一个常量）。为了简化问题，本书将注意力集中在如图9.3（a）所示的递归二进制分区上。首先把这个空间分成两个区域，然后用每个区域的平均值来模拟响应。本书选择变量和分割点来达到最佳匹配，然后将这些区域中的一个或两个区域划分成更多的区域，并依此类推，直到满足停止规则为止。图9.3（b）中的二叉树可以表示这一相同模型，递归二叉树的一个关键优点就是可解释性，一棵树便能完全描述特征空间的分区情况。

pagenumber_ebook=137,pagenumber_book=127

图9.2　决策树模型

pagenumber_ebook=137,pagenumber_book=127

图9.3　决策树决策过程示意图

机器学习中的决策树可被分为两类——回归树和分类树。以上两类之间唯一的区别在于划分节点和剪枝的标准不同。回归树采用平方误差和节点不纯度的测量方法，但不适合分类。因此对分类树会采用不同的测量方法，如误分率、基尼指数和交叉熵。

（2）随机森林

装袋法（bagging）或自举汇聚法（bootstrap aggregation）是一种对估计的预测函数进行缩减方差的方法。随机森林算法是对装袋法的实质性改进，算法中建造了大量的去相关树，然后求出它们的平均值。随机森林算法的性能在很多情况下均与Boosting算法十分相似，且它的训练和调整策略也更为简单。因此，随机森林算法更受欢迎。

像决策树模型一样，随机森林算法也可以用于回归和分类。当用于分类时，随机森林算法是从每棵树上获得一个分类表决，然后根据多数投票进行分类。当用于回归时，模型将简单地计算出目标点x处的每棵树预测值的平均值。

（3）神经网络

神经网络是一种基于人脑特征的计算模型。它良好的适应性、自组织性和自学习能力使其成为数据分类和模式识别的有力工具。它的中心思想是提取出输入的线性组合，并将其作为派生特征，然后将目标建模成为这些特征的非线性函数。图9.4显示了一个单隐层神经网络的结构。

pagenumber_ebook=138,pagenumber_book=128

图9.4　单隐层神经网络示意图

反向传播算法是最常见的神经网络训练算法，它通过计算每个神经元的误差组成来更新模型的权值。正如本部分中所阐明的那样，它们是非线性统计模型。

9.1.3 数据模型

9.1.3　数据模型