4.2.4 训练模型

4.2.4 训练模型

在选择模型时,通常让开发者感到迷惑的是“我应该使用哪种算法?”。选择算法取决于数据的大小、质量和性质,以及使用数据的可用资源和动机。算法也可以称为“解决方案的表示”,每种机器学习方法都以不同的方式表示数据,而且,大多数算法本身是现成的,不需要从头开始编码。话虽如此,但某些算法比其他算法更容易解决特定领域问题,这有助于开发者决定尝试哪些算法,常见的算法有以下几种。

·分类:逻辑回归、支持向量机、随机森林、朴素贝叶斯;

·回归:线性回归;

·特征工程:PCA、LDA;(https://www.daowen.com)

·聚类:K-Means、LDA;

·协同过滤:交替最小二乘法。

在选择模型时,几乎不可能预测哪种算法对数据的表现最好。即使模型在训练和验证期间表现良好,也不能保证它在现实世界中表现良好,所以很多时候依赖于开发者的经验。对模型而言,当前一个重要的领域是模型的可解释性,可解释性是指我们人类对输出的理解程度。

在选择好模型后,就要从准备好的数据中选择测试集和训练集。算法在训练数据集上进行训练,并在测试数据集上进行验证及评估。在很多情况下,会尝试几种机器学习算法的效果。机器学习可能会返回一个解决方案,也可能会产生多个解决方案。通常是收集其输出并评估输出的情况,对输出进行评估是通过评估预测的准确性、可理解性或实用性来进行的。评估完成后,选择一个候选方案。在大多数情况下,如果其他条件相同,则选择最简单的解决方案。有多种方法可以将数据划分为训练数据集和测试数据集以训练机器学习模型,比如保留法是一种简单的划分数据集的方法,保留一定比例的数据进行测试,然后对剩余数据进行训练,并验证模型。测试过程中通常会指定模型有效性或准确性的评估指标。