什么是机器学习
机器学习 (Machine Learning)
在没有显式编程的情况下,赋予计算机学习能力的研究领域。—— Arthur Samuel, 1959
机器学习算法
机器学习的两种主要类型是监督学习和无监督学习。当然,还有半监督学习、强化学习等
- 监督学习 (Supervised learning):最常见,发展最好
- 无监督学习 (Unsupervised learning)
- 推荐系统 (Recommender systems)
- 强化学习 (Reinforcement learning)
监督学习
学习 X → Y 输入到输出映射的算法。关键特征是给学习算法提供包含正确答案的示例。在模型从这些输入输出学习之后,它可以接收一个全新的输入(它以前从未见过的),并尝试生成适当的输出
监督学习使用有标签的数据集,其任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测
监督学习问题被分为回归(Regression)和分类(Classification)问题:
- 回归问题:将输入变量映射到某个连续函数,即预测一个连续值
- 分类问题:将输入变量映射到离散的类别中,即预测一个离散值
- 预测的是一个有限的可能输出类别集合
无监督学习
给学习算法提供的示例不包含 Y(输出),机器学习是找到一些结构或一些模式,或者只是在数据中发现一些有趣的东西
在无监督学习中,使用的数据集没有标签,不知道结果会是什么样子,但可以通过聚类(Clustering)的方式从数据中提取一个特殊的结构
除了聚类(Clustering),还有另外两种常见的无监督学习类型:
- 异常检测(Anomaly detection):如金融系统中的欺诈检测
- 降维(Dimensionality reduction):可以将大数据集神奇地压缩为小得多的数据集,同时尽可能少地丢失信息