My-Notes

❯

❯

002.吴恩达机器学习

❯

001.机器学习

❯

010.正则化

2025年8月13日3分钟阅读

应用正则化

用上文的四阶函数举例，要让 $w_{3}, w_{4}$ 接近 0，则让其代价函数加一个大系数的 $w_{3}, w_{4}$

$w, b minimize J (w, b) + 1000 w_{3}^{2} + 1000 w_{4}^{2}$

会惩罚模型，让其减少 $w_{3}, w_{4}$ 接近 0，负责模型无法做到 $w, b minimize$

这就是正则化背后的原理：如果参数值较小，就有点像拥有一个更简单的模型（特征较少的模型）

但事实上，我们不知道哪些是最重要的特征，也不知道该惩罚哪些特征。所以正则化通常的做法是惩罚所有特征（更确切地讲是惩罚所有 $w$ 参数），而且可以证明这通常会使得拟合出的函数更平滑、更简单、波动更小、也更不易过拟合

J (w, b) = \frac{1}{2 m} i = 1 \sum m (f_{w, b} (x^{(i)}) - y^{(i)})^{2} + \frac{λ}{2 m} i = 1 \sum m w_{j}^{2} [+ \frac{λ}{2 m} b^{2}] 可选的对 b 进行正则化，一般不需要

$λ$ ：正则化参数， $λ > 0$
- 类似与学习率 $α$ ，也需要为 $λ$ 选一个值

新的代价函数兼顾了两个目标：

均方误差项：促使算法更好地拟合训练数据
正则化项：促使算法尝试让参数 $w$ 较小

所选的 $λ$ 值决定了这两个目标之间的权衡程度

$λ$ 取 0 或接近 0，则正则化项为 0 或接近 0，即：忽略正则化，过拟合
$λ$ 取极大数，则正则化项极大，会迫使模型选择 $w$ 参数极其接近 0，即： $f \approx b$ ，欠拟合
常见的 $λ$ 取 1 或 10

正则化线性回归

在每次送代中，正则化的作用是将 $w$ 乘以一个略小于 1 的数，这会使 $w_{j}$ 的值稍微缩小一点

导数项求解过程（选修）：

正则化逻辑回归

应用正则化
正则化线性回归
正则化逻辑回归

反向链接

007.特征工程

关系图谱

本站所有内容均为原创、翻译或转载（转载都已注明原作者的原文链接），原创及翻译文章著作权归本人所有，所有文章以知识共享署名 4.0 国际许可协议授权，转载请注明出处。