9.3 分析与讨论

9.3 分析与讨论

本章重点分析了在实验中出现的模型,分别为基本决策树、随机森林、神经网络和XGBoost决策树。

本实验中,基本决策树模型显示出了它的不足之处。首先,单一树模型对于噪声并不具有鲁棒性,并且不能很好地推广到未来观测的数据之中。其中一个解决方法是将其转变为树集成的方法,以便于将任意的决策树与各种不同版本的数据集结合起来。第二,本书发现在边界值的左侧与右侧的数据即使都具有相似的特征,在分类上却具有非常大的不同。

随机森林比决策树表现更好,因为它是树模型的集成。但是缺点也随之而来,即随机森林的结果很难解释。并且由于包含分类特征的数据,随机森林的结果更偏向于类别多的特征维度。因此,随机森林中变量的权重值在这种类型的数据下并不可靠,通常采用局部排列法来解决此类问题。

神经网络展示了比以上三种模型更优的表现,在理论与实际中都十分合理。最重要的一点是,模型不单单是线性的,而是包含了多种非线性部分。但是,本实验当中评估的创新过程仍然是一个无法得到更多信息的“黑盒”。随着数据量的增长,模型的精度也相应提高。因此,当掌握大数据时,神经网络不失为一种好的选择。

本实验所运用的所有模型当中,XGBoost是表现最好的模型。所有三种测量标准——准确率、受试者工作特征曲线和精确率—召回率曲线都强有力地证明了其在数据集当中的优良表现。可能的原因总结如下:第一,XGBoost结合了企业特征的不同方面,在一定程度上,这些特征的结合有助于企业效率的预测;第二,算法克服了过度拟合的缺陷,并且能够学习所预测的企业效率问题。

由于研究对象包含中关村示范区企业长达11年的各项指标,这些海量复杂数据为计算机模型的结构设计、参数选取和算法训练都提供了强有力的支持。在本书中,选择神经网络模型,通过线性加权、函数映射等方式,对已有数据进行存储和学习。与以往的实证研究结果不同,本章所使用的机器学习模型并没有逐一分析影响企业创新效率的不同变量,并确定其对于创新效率的作用方向和力度,而是通过优化学习算法实现对网络结构和权值的调整,使整体模型具有一定的逻辑推理和判断能力。最终,本书通过对不同模型对于创新效率的预测结果进行比对分析,从所有机器学习模型中选出准确率最高的一种,以达到对未来企业发展提供创新效率预测和创新实践指导的目的。