My-Notes

❯

❯

006.LLMForEverybody

❯

❯

❯

008.RMSprop

2025年8月22日4分钟阅读

提出

RMSProp（Root Mean Square Propagation）算法由 Geoffrey Hinton 在他的 Coursera 课程《Neural Networks for Machine Learning》中提出，该课程首次发布于 2012 年

RMSProp 算法是一种自适应学习率的优化方法，它通过使用梯度的平方的指数移动平均值来调整每个参数的学习率，从而加快学习速度并减少训练过程中的震荡。这种方法特别适合处理非凸优化问题，并且在深度学习中得到了广泛的应用

RMSprop 算法的原理

RMSprop（Root Mean Square Propagation）是一种自适应学习率的优化算法，它是为了解决 Adagrad 算法中学习率递减导致的问题而提出的。RMSprop 通过使用指数加权移动平均来调整每个参数的学习率，使得学习率的调整更加平滑

更新规则如下：

初始化参数 $θ$ ，设置学习率 $η$ ，衰减系数 $ρ$ （通常设为 0.9），以及数值稳定性的小常数 $ϵ$ （通常设为 $1 e - 8$ ）
在每次迭代中，计算参数 $θ$ 的梯度 $g$
更新累积平方梯度的指数加权移动平均 $r$ ： $r = ρ \cdot r + (1 - ρ) \cdot g^{2}$
计算参数更新量： $Δ θ = \frac{η}{r + ϵ} \cdot g$
更新参数 $θ$ ： $θ = θ - Δ θ$

RMSprop 算法的主要特点

RMSprop 算法的优点包括：

自适应学习率调整，不需要手动设置学习率
适合处理非平稳目标函数和循环神经网络（RNN）
可以缓解梯度消失或梯度爆炸的问题

RMSprop 算法的缺点包括：

需要调整新的超参数——衰减速率 $ρ$
依然依赖于全局学习速率 $e t a$ ，如果设置不当，可能会导致模型训练效果不佳

在实际应用中，建议从较小的全局学习速率开始尝试，并逐步增加以找到最佳性能。同时，可以尝试不同的衰减速率 $ρ$ 以找到最适合模型的设置

RMSprop 和 AdaGrad 的区别

最大的改进在于累积梯度的处理方式:

AdaGrad: 累积所有过去的梯度平方（无遗忘因子）。这意味着它会不断地累积梯度信息，导致学习率随着时间逐渐减小，可能在后期变得过小，以至于无法继续有效更新
RMSprop: 使用指数加权平均来累积过去的梯度平方（有遗忘因子）。这种方式使得算法对最近的梯度给予更多的权重，而对旧的梯度逐渐“遗忘”，从而避免了学习率过快减小的问题

提出
RMSprop 算法的原理
RMSprop 算法的主要特点
RMSprop 和 AdaGrad 的区别

反向链接

001.发展历史

关系图谱

本站所有内容均为原创、翻译或转载（转载都已注明原作者的原文链接），原创及翻译文章著作权归本人所有，所有文章以知识共享署名 4.0 国际许可协议授权，转载请注明出处。