4.2.3 数据预处理
2026年01月16日
4.2.3 数据预处理
机器学习算法从它们所训练的数据中学习,所以为模型提供有效且可靠的数据以供学习至关重要,数据必须是可用的格式。在实际场景中,这将涉及理解用于建模的数据并将其导出,然后必须处理数据以确保它是正确的格式,删除错误数据以及修复任何丢失的数据。数据集大小可能超过需要,因此有可能需要数据集重采样。使用机器学习的团队都必须具有数据处理的能力,数据预处理对于获得清洁、有效的数据至关重要,清洁、有效的数据是获得稳健可信结果的关键。为了开发具有高度领域适用性的机器学习模型,能够高效实施算法的技术专家必须与能够理解数据、对数据进行分类并找出趋势和模式的领域专家合作。数据预处理是迄今为止机器学习最重要的方面,在实际的大多数项目里几乎有一半的时间用于数据处理。
数据处理首先要保证数据的正确性,现实世界中可能会因人为错误、不正确的分类、缺失数据、不正确的背景信息和重复数据等而在项目中造成损失。例如,错误可能来自纸质文件的数字化和书面文本的机器阅读。重要的是模型的好坏主要取决于给它提供的数据,所以在开发过程中花时间验证数据是非常值得的,可以最大限度地减少人为错误。(https://www.daowen.com)
数据的规模大小没有明确的规则,需要项目开发者通过训练模型并将其部署到现实世界中去验证。问题的复杂性和算法的复杂性会影响“学习曲线”,这反过来又会影响数据量的需求。模型能否产生在现实世界中具有可用性的输出取决于算法的复杂程度和所提供数据的质量。非线性、非参数算法需要更多数据才能提高其准确性,而这些算法通常是更强大的机器学习方法。在项目实施中,关键是在尽可能多的数据上稳健地训练和验证模型。