特征工程
特征的选择会极大影响学习算法的性能,选择或设计合适的特征是算法良好运行的关键一步
特征工程:运用自己的知识或基于对问题的直觉来设计新特征,通常是通过变换或组合问题的原始特征,以便让学习算法更易做出准确预测
所以根据对该应用的见解,而不是只采用一开始就有的那些特征,有时通过定义新特征可能会得到更好的模型
多项式回归
到目前为止我们一直都是在对数据拟合直线,让我们运用多元线性回归的思路结合特征工程,想出一种名为多项式回归的新算法:它能让你用曲线,也就是非线性函数来拟合数据
通过房屋尺寸预测房价的例子:
- 使用线性函数无法拟合,会想到使用二次函数拟合,看起来不错
- 但是仍然有问题,当房屋尺寸继续增大时,二次函数会变小,这显然不对
- 选择三次函数的拟合效果会好一些
- 这种对一个特征进行次方运算后作为新特征,尤为需要使用特征缩放的技巧
当然还有其他选择可以更好拟合,但是实际中该怎么决定用哪些特征呢?
接下来的课程(过拟合与欠拟合、应用正则化),你会明自如何选择不同的特征,如何衡量这些不同模型表现的过程来帮你做决定
本节课只是想让你知道可以选择使用哪些特征,并且通过使用特征工程和多项式函数,你可能会为你的数据得到一个更好得多的模型