Optimizer 负责在训练过程中更新模型的参数,目的是通过调整参数来最小化损失函数,即模型预测和实际数据之间的差异

从 1951 年 Herbert Robbins 和 Sutton Monro 在其题为“随机近似方法”的文章中提出 SGD,到 2017 年出现的 AdamW 成为最主流的选择,优化器的发展经历了 70 多年的时间。本系列从时间的角度出发,对神经网络的优化器进行梳理,希望能够帮助大家更好地理解优化器的发展历程

发展历史:

  1. SGD 1951
  2. Momentum 1964
  3. ASGD 1992
  4. Rprop 1993
  5. AdaGrad 2011
  6. AdaDelta 2012
  7. RMSprop 2012
  8. Adam 2014
  9. Nadam 2016
  10. AdamW 2017
  11. RAdam 2019