提出

RAdam（Rectified Adam）是由 Liyuan Liu et al. 提出的。这一算法的详细描述和原理可以在论文《On the Variance of the Adaptive Learning Rate and Beyond》中找到，该论文首次发表于 2019 年，并在 2020 年的 ICLR 会议上发表

论文中提出了 RAdam 算法，通过引入一个修正项来解决自适应学习率在模型训练早期阶段过大的方差问题，从而改善了优化过程的稳定性和鲁棒性

RAdam 算法的原理

Radam（Rectified Adam）是一种优化算法，它是 Adam 优化器的一个变种，旨在解决 Adam 在不同数据集和任务中性能不一致的问题。Radam 通过动态调整学习率来适应不同的训练阶段，从而提高模型的训练效果

Radam 的主要特点：

动态调整学习率：Radam 根据训练的进展动态调整学习率，以适应不同阶段的训练需求
适应性：Radam 能够根据训练数据的特点自动调整优化策略，提高了对不同数据集和任务的适应性
简单易用：Radam 的实现与 Adam 类似，易于在现有的深度学习框架中使用

Radam 的更新规则与 Adam 类似，但在更新参数时加入了一个修正项，以提高优化的效率。具体的更新公式如下：

初始化一阶矩估计（动量） $m_{t}$ 和二阶矩估计（梯度平方的移动平均） $v_{t}$ 为 0，以及时间步长 $t = 1$
在每次迭代中，计算梯度 $g_{t}$
更新一阶矩估计 $m_{t}$ 和二阶矩估计 $v_{t}$ ：
- $m_{t} = β_{1} \cdot m_{t - 1} + (1 - β_{1}) \cdot g_{t}$
- $v_{t} = β_{2} \cdot v_{t - 1} + (1 - β_{2}) \cdot g_{t}^{2}$
计算偏差修正的一阶矩估计 $\overset{m}{^}_{t}$ 和二阶矩估计 $\overset{v}{^}_{t}$ ：
- $\overset{m}{^}_{t} = \frac{m _{t}}{1 - β _{1}^{t}}$
- $\overset{v}{^}_{t} = \frac{v _{t}}{1 - β _{2}^{t}}$
根据训练阶段动态调整学习率：
- $ρ_{\infty} = \frac{2}{1 - β _{2}} - 1$
- $ρ_{t} = ρ_{\infty} - \frac{2 t β _{2}^{t}}{1 - β _{2}^{t}}$
- 如果 $ρ_{t} > 5$ 则： $r_{t} = \frac{( ρ _{t} - 4 ) ( ρ _{t} - 2 ) ρ _{\infty}}{( ρ _{\infty} - 4 ) ( ρ _{\infty} - 2 ) ρ _{t}}$
- 否则： $r_{t} = 1$
更新参数 $θ$ ： $θ_{t} = θ_{t - 1} - η_{t} \cdot \frac{m ^ _{t}}{v ^ _{t} + ϵ}$

其中， $η$ 是初始学习率， $ϵ$ 是为了数值稳定性而添加的小常数（例如 $1 e - 8$ ）， $β_{1}$ 和 $β_{2}$ 是超参数，通常分别设为 0.9 和 0.999

Radam 的优点和缺点

优点：

动态调整学习率，提高了优化的效率
适应性强，适用于多种数据集和任务

缺点：

相对于原始的 Adam，Radam 的实现稍微复杂一些
需要调整的超参数更多，可能会增加调参的难度

Radam 在某些任务中可能会比 Adam 和其他优化器有更好的表现，但它的效果也受到具体任务和数据集的影响。在实际应用中，可能需要通过实验来确定 Radam 是否适合特定的任务

My-Notes

全部文章

012.RAdam

提出

RAdam 算法的原理

Radam 的优点和缺点

目录

反向链接

关系图谱