4.2.5　评估

2026年01月16日

版权

4.2.5　评估

机器学习任务的性能因给定数据的表示而异。但算法的共同目标是泛化，既不欠拟合也不过拟合，泛化是指模型能够在新的样本上保证以最大精度执行。

评估模型有两个重要指标，即偏差和方差。偏差是指预测值与真实值之间的差距，差距越大，则其偏离真实值的程度越大。偏差表达了模型从错误数据中学习的错误，偏差通常衡量这些模型的预测与实际正确值或真实信号的差距。

·低偏差：更好地理解来自数据集的真实信号，预测结果准确率较高；

·高偏差：更差地理解来自数据集的真实信号，预测结果准确率较低，高偏差通常可以表明有更好的机器学习技术可用。

方差是指预测值的变化范围、离散程度，该值越大，其取值越离散。方差表达了由于对训练集波动的敏感性而产生的误差。

·低方差算法基于数据集输出预测结果集中，模型比较稳定。

·高方差算法基于数据集输出预测结果分散，模型不稳定。

偏差和方差表达了机器学习理解来自数据集的有效信号，同时忽略噪声的能力。机器学习的难点是最小化预测误差的两个来源，这会阻止监督学习算法在其训练集之外泛化。模型在最小化偏差和方差的能力之间存在权衡（也称为偏差-方差权衡）。(https://www.daowen.com)

模型的性能度量包括准确性、预测和召回、平方误差、似然、后验概率、成本和K-L散度（相对熵）。

在实际开发中，要注意的是不能因为一个模型表现良好，就说它是最好的、唯一的模型，关键是从结果中获得最大的准确性。交叉验证等技术有助于确定模型结果的可信度。所以，我们可以进一步优化机器学习算法，尝试各种机器学习方法有助于确定哪种方法可以获得最准确的结果。

除了针对模型的评估以外，还可以通过用更好的数据改进结果。有一些方法可以用数据来改进性能，例如，

·获取更多数据：如果可以获得更多数据，则有助于提高模型的性能；

·获得质量更好的数据：与更多的数据相比，在可能的情况下，获得质量更好的数据通常更好，这将改善数据中的信号并降低噪声；

·清理数据：以提高数据质量；

·重新采样数据：将样本数据划分为不同的大小或分布可以更好地表示数据。