9.2.2 模型评估

9.2.2 模型评估

(1)评价方法

通过模型评估,有助于了解不同模型的表现。实验中运用了多种方式来评价模型的准确率、受试者工作特征曲线(ROC)和精确率—召回率(precision recall curve)曲线。准确率是模型能正确预测的结果占总数的比例,对于平衡数据来说,这是一个有力的度量标准,但如果数据是非平衡的,该方法将失去效力。受试者工作特征曲线提供了分类模型之间的比较方法,曲线图表的x轴表示误判率(1—特异性),当其值为0时目标的概率为1,而y轴表示灵敏度,当其值为1时目标的概率为1(Chen et al.,2012),这是分类问题最常用的度量标准。如果曲线与斜45°曲线重合,则说明模型表现很差;曲线与斜45°线形成的面积越大,模型的表现越好。最后,精确率—召回率曲线被用来描述模型精度,以Recall(召回率)为x轴,Precision(精确率)为y轴。曲线下面积的规律与受试者工作特征曲线相似。

(2)实验结论

本实验使用五重交叉验证来保证结论的公平性,所有结果都为均值。特别是由于“样本”即训练集数据对于模型表现的比较是没有意义的,所以只有测试集的结果,如图9.5所示。

图9.5 模型准确率

五个模型的准确率被分别被显示于以下三个图片中,即图9.5(a)、图9.5(b)和图9.5(c)。XGBoost在知识生产效率、知识商业化效率和综合效率的分类问题上的准确率分别为73.65%,70.02%和70.09%,优于另外四种模型。在准确率方面的模型表现排行为:XGBoost决策树>神经网络>随机森林>线性回归>基本决策树。因为本次实验所用的数据都是平衡的,所以准确率本身可以有力地证明模型的能力。

同样的,受试者工作特征曲线如图9.6(a)、图9.6(b)和图9.6(c)所示。图中黑色虚线具有随机性,即任意选择正负样例。线下面积同样如图9.6(a)、图9.6(b)和图9.6(c)所示以进行更好的比较。XGBoost在三种分类问题中线下面积的最值分别为0.82、0.77和0.77。模型表现的排行为:XGBoost决策树>神经网络>随机森林>线性回归>基本决策树。

图9.6 三种效率受试者工作特征曲线

图9.7(a)、图9.7(b)和图9.7(c)显示了五种模型的精确率—召回率曲线。图形中同样有一条黑色虚线,它是随机模型的效果线,五种模型的表现显然比随机模型的效果要好。同样的,线下面积又一次被用于在模型之间进行比较。XGBoost分别获得的区域大小为0.83、0.76、0.76,精确率最高。

图9.7 三种效率的精确率-召回率曲线