多维特征

之前都是只考虑一个特征 x，下面了解多维特征

$x_{j}$ ：第 $j$ 个特征，如： $x_{1}, x_{2}, x_{3}, ...$
$n$ ：特征的数量
$x^{(i)}$ ：第 $i$ 个训练样本，是一个由 $n$ 个数字组成的列表，可以称为向量。它包含了第 $i$ 个训练示例的所有特征
- 可以将箭头视为一个可选的指示符，仅用于强调 $x$ 表示向量，而非一个数字
$x_{j}^{(i)}$ ：指代第 $i$ 个训练样本中的第 $j$ 个特征

模型表示

为了书写简化：

所以上面式子中的 $w$ 和 $x$ 都是向量，即： $f_{w, b} (x) = w_{1} x_{1} + w_{2} x_{2} + ... + w_{n} x_{n} + b$

其中 $w_{1} x_{1} + w_{2} x_{2} + ... + w_{n} x_{n}$ 可以写为点积形式 $w \cdot x$

最终写为 $f_{w, b} (x) = w \cdot x + b$

这种带有多个输入特征的线性回归模型，称为多元线性回归 (multiple linear regression)

当你在实现一个学习算法时，使用向量化会让你的代码更简洁，并且能让它运行得更高效

学习如何编写向量化代码能让你利用现代数值线性代数库，甚至可能还能利用 GPU 硬件

举个例子：3 维特征

# np 来于 NumPy 库，是 python 和机器学习领域目前应用最广泛的数值线性代数库
w = np.array([1.0, 2.5, -3.3])
b = 4
x = np.array([10, 20, 30])

计算模型预测时不进行向量化的实现方法 1：

$f_{w, b} (x) = w_{1} x_{1} + w_{2} x_{2} + w_{3} x_{3} + b$

f = w[0] * x[0] +
    w[1] * x[1] +
	w[2] * x[2] + b

计算模型预测时不进行向量化的实现方法 2：

$f_{w, b} (x) = \sum_{j = 1}^{n} w_{j} x_{j} + b$

f = 0
for j in range(0, n): # range(0, n) 表示 j = 0, 1, ..., n-1
    f = f + w[j] * x[j]
f = f + b

使用向量化 (Vectorization)：

$f_{w, b} (x) = w \cdot x + b$

f = np.dot(w, x) + b

令 $n = 16, b = 0, α = 0.1$

w = np.array([0.5, 1.3, ..., 3.4])
w = np.array([0.3, 0.2, ...,   0.4])

不使用向量化计算梯度下降：

⎩ ⎨ ⎧ w_{1} = w_{1} - 0.1 d_{1} w_{2} = w_{2} - 0.1 d_{2} ⋮ w_{16} = w_{16} - 0.1 d_{16}

for j in range(0, 16):
    w[j] = w[j] - 0.1 * d[j]

使用向量化计算梯度下降：

w = w - 0.1 d

w = w - 0.1 * d

	之前的表示法	向量表示法
参数	$w_{1}, w_{2}, ..., w_{n}$ $b$	$w$ $b$
模型	$f_{w, b} (x) = w_{1} x_{1} + w_{2} x_{2} + ... + w_{n} x_{n} + b$	$f_{w, b} (x) = w \cdot x + b$
成本函数	$J (w_{1}, w_{2}, ..., w_{n}, b)$	$J (w, b)$
梯度下降	$重复直到收敛 {w_{j} = w_{j} - α \frac{\partial}{\partial w _{j}} J (w_{1}, w_{2}, ..., w_{n}, b) b = b - α \frac{\partial}{\partial b} J (w_{1}, w_{2}, ..., w_{n}, b)$	$重复直到收敛 {w_{j} = w_{j} - α \frac{\partial}{\partial w _{j}} J (w, b) b = b - α \frac{\partial}{\partial b} J (w, b)$

正态方程 (Normal equation) 仅适用于线性回归，不需要迭代就能找出参数 $w, b$

正态方程的缺点：

无需太过关心正态方程如何运作的细节，只需留意一些机器学习库可能在后台使用此复杂方法求解 $w, b$

但对于大多数学习算法（包括你自己），如何实现线性回归，梯度下降通常是完成这项工作的更好方法