梯度下降及其在神经网络中的应用

更新时间：2025-10-14 理论教育 版权反馈

【摘要】：“梯度下降”是一种能够最小化代价函数的通用过程，实现方法是对网络中的权重沿降低代价最快的方向进行逐步修改。3如果将代价函数看作山脉，那么梯度下降就是选择向山脚下滑动的最快路径。下一步就是使用输出层梯度来计算上一层权重的梯度，以此类推，逐层回到输入层。这是一种高效计算误差梯度的方法。尽管不像玻尔兹曼机学习算法那样拥有优雅和深厚的物理学根源，但是反向传播效率更高，并且推动该领域取得了快速进展。

优化（Optimization）是机器学习中一个关键的数学概念：对于许多问题，可以找到一个代价函数（cost function），而问题的解决方案就是代价最低时的系统状态。对于霍普菲尔德网络来说，代价函数就是能量，目标是找到使网络能量最小化的状态（如第6章所述）。对于前馈网络，用于学习的常用代价函数是训练集输出层上的方差之和。“梯度下降”（gradient descent）是一种能够最小化代价函数的通用过程，实现方法是对网络中的权重沿降低代价最快的方向进行逐步修改。3如果将代价函数看作山脉，那么梯度下降就是选择向山脚下滑动的最快路径。

鲁姆哈特发现了如何通过被称为“误差的反向传播”（backpropagation of errors），或简称为“反传”（backprop）的过程来计算网络中每个权重的梯度（见方框8.1）。从误差已知的输出层开始，可以很容易地计算出指向输出单元的输入权重的梯度。下一步就是使用输出层梯度来计算上一层权重的梯度，以此类推，逐层回到输入层。这是一种高效计算误差梯度的方法。

尽管不像玻尔兹曼机学习算法那样拥有优雅和深厚的物理学根源，但是反向传播效率更高，并且推动该领域取得了快速进展。由大卫·鲁姆哈特、杰弗里·辛顿和罗纳德·威廉姆斯（Ronald Williams）合著的经典的反向传播论文于1986 年发表在《自然》杂志上，4 迄今为止，该论文已经在其他研究论文中被引用超过4 万次。（世界上发表的所有论文里有一半从未被引用过，甚至连作者自己都不引用；一篇被引用了100 次的论文都会在领域内产生巨大反响，所以很显然，这篇有关反向传播的文章是一颗重磅炸弹。）

pagenumber_ebook=154,pagenumber_book=134 8.1(https://www.daowen.com)

误差反向传播

反向传播网络的输入是被传播的前馈：在该图中，左侧的输入通过连接（箭头）向前传播到隐藏的单元层，然后投影到输出层。输出结果与训练者给出的值进行比较，差值被用来更新连接输出单元的权重，以减少误差。然后，根据每个权重对误差贡献的多少，通过反向传播误差对输入单元和隐藏层之间的权重进行更新。利用大量样本进行训练，隐藏单元生成了可区分不同输入模式的选择性特征，这样一来它们就能够在输出层中对不同类别进行区分。这一过程被称为“表征学习”（representation learning）。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

梯度下降及其在神经网络中的应用

网络优化方法：小批量梯度下降的应用

梯度转移理论在区域经济发展中的应用

胜任力及其在管理中的应用

直线种类及其在艺术中的应用

商业世界中的神经网络如何应用？

开发研究及其在产业中的应用

边际考虑及其在经济中的应用

可锻铸铁在应用中的禁忌及其优势

相关推荐