线性回归

线性模型

  • 给定 n 维输入:
  • 线性模型有一个 n 维权重和一个标量偏差:
  • 输出是输入的加权和:
    • 向量版本:

衡量预估质量

比较真实值和预估值,例如房屋售价和估价

假设 是真实值, 是估计值,我们可以比较:

这个叫做平方损失

训练数据

收集一些数据点来决定参数值(权重和偏差),例如过去 6个月卖的房子,这被称之为训练数据,通常越多越好

假设我们有 n 个样本,记:

参数学习

训练损失:

最小化损失来学习参数:

显示解

将偏差加入权重:

损失是凸函数,所以最优解满足:

总结

  • 线性回归是对 n 维输入的加权,外加偏差
  • 使用平方损失来衡量预测值和真实值的差异
  • 线性回归有显示解
  • 线性回归可以看做是单层神经网络

基础优化算法

梯度下降

挑选一个初始值 ,重复迭代参数

  • 沿梯度方向将增加损失函数值
  • 学习率 :步长的超参数

小批量随机梯度下降

在整个训练集上算梯度太贵,一个深度神经网络模型可能需要数分钟至数小时

我们可以随机采样 b 个样本 来近似损失:

  • b 是批量大小,另一个重要的超参数
    • 不能太小:每次计算量太小,不适合并行来最大利用计算资源
    • 不能太大:内存消耗增加;浪费计算,例如如果所有样本都是相同的

总结

  • 梯度下降通过不断沿着反梯度方向更新参数求解
  • 小批量随机梯度下降是深度学习默认的求解算法
  • 两个重要的超参数是批量大小和学习率