线性回归

线性模型

给定 n 维输入： $x = [x_{1}, x_{2}, ..., x_{n}]^{T}$
线性模型有一个 n 维权重和一个标量偏差： $w = [w_{1}, w_{2}, ..., w_{n}]^{T}, b$
输出是输入的加权和： $y = w_{1} x_{1} + w_{2} x_{2} + ... + w_{n} x_{n} + b$
- 向量版本： $y =< w, x > + b$

比较真实值和预估值，例如房屋售价和估价

假设 $y$ 是真实值， $\overset{y}{^}$ 是估计值，我们可以比较：

l (y, \overset{y}{^}) = \frac{1}{2} (y - \overset{y}{^})^{2}

这个叫做平方损失

收集一些数据点来决定参数值（权重和偏差），例如过去 6个月卖的房子，这被称之为训练数据，通常越多越好

假设我们有 n 个样本，记：

X = [x_{1}, x_{2}, ..., x_{n}]^{T} y = [y_{1}, y_{2}, ..., y_{n}]^{T}

训练损失：

l (X, y, w, b) = \frac{1}{2 n} i = 1 \sum n (y_{i} - < x_{i}, w > - b)^{2} = \frac{1}{2 n} ∣∣ y - X w - b ∣ ∣^{2}

最小化损失来学习参数：

w^{*}, b^{*} = a r g w, b min l (X, y, w, b)

将偏差加入权重： $X \leftarrow [X, 1], w \leftarrow [w, b]^{T}$

l (X, y, w) \frac{\partial}{\partial w} l (X, y, w) = \frac{1}{2 n} ∣∣ y - X w ∣ ∣^{2} = \frac{1}{n} (y - X w)^{T} X

损失是凸函数，所以最优解满足：

\frac{\partial}{\partial w} l (X, y, w) \frac{1}{n} (y - X w)^{T} X w^{*} = 0 = 0 = (X^{T} X)^{- 1} Xy

挑选一个初始值 $w_{0}$ ，重复迭代参数 $t = 1, 2, 3, ...$

w_{t} = w_{t - 1} - η \frac{\partial l}{\partial w _{t - 1}}

在整个训练集上算梯度太贵，一个深度神经网络模型可能需要数分钟至数小时

我们可以随机采样 b 个样本 $i_{1}, i_{2}, ..., i_{b}$ 来近似损失：

\frac{1}{b} i \in I_{b} \sum l (x_{i}, y_{i}, w)

b 是批量大小，另一个重要的超参数
- 不能太小：每次计算量太小，不适合并行来最大利用计算资源
- 不能太大：内存消耗增加；浪费计算，例如如果所有样本都是相同的