均方损失(L2 Loss)

  • 蓝色线: 时, 的函数。二次函数
  • 绿色线:似然函数 。高斯分布
  • 橙色线:损失函数的梯度。一次函数

当预测值 和真实值 比较远的时候,梯度比较大,对参数更新是比较多的。随着预测值靠近真实值(靠近原点),梯度的绝对值变得越来越小,对参数更新的幅度越来越小

绝对值损失(L1 Loss)

当预测值和真实值比较远的时候,梯度也不会太大,依然是常数,带来稳定性上的好处

不好的地方是 0 点处不可导,在 0 点处 -1~+1 的不平滑,导致预测值和真实值比较近时不稳定

Huber’s Robust Loss

结合以上两种损失函数