动画版机器学习：啥是机器学习？如果这个你还看不懂，那我劝你放弃吧

话说小李还在上小学时
曾学过这样一个问题
一个一斤重的苹果2块钱
一个两斤重的苹果4块钱
一个三斤重的苹果6块钱
老师想让小李找到苹果重量到售价的计算方法
以便计算其他重量苹果的售价。

一开始小李没学会，只能瞎猜
因此提交的答案全是错的
在老师的指导下，有所好转
回答对了一题，但是仍不理想

又经过n次的学习和老师细心的指导
小李终于全部回答正确了

但是小李真的学会了吗?
老师在期末测验时，出来一个完全不一样的题
一个四斤重的苹果多少钱
如果小李的回答是8块钱
则说明小李真的学会了，找到了正确的计算方法
如果小李的回答不是8块钱
则说明小李并没有真正学会
哼哼~竟然死记硬背~

机器学习的过程与人类类似
我们把机器学习的过程称作训练
训练时，会提供一批数据
这批数据称作训练样本集
训练样本集中的每一条数据称作一个样本

一个样本包含两个部分：样本特征和样本标签
比如上例中的苹果重量就是样本特征
当然样本可以又很多特征
比如苹果还会有颜色特征，品牌特征等等
样本的第二个部分称作样本标签
就好像贴在样本上的售价标签一样
样本标签作为标准答案来使用

我们希望机器能找到样本特征到样本标签的计算方法
这个方法称作预测函数
预测函数计算出来的结果称作预测结果
显然，预测结果与真实结果，也就是样本标签之间的差距越小越好

扫描二维码关注公众号，回复： 3018934 查看本文章

预测结果与样本标签之间差距的计算函数称作损失函数
损失函数计算出来的结果称作损失大小
损失越小则预测越准确,说明预测函数也就越靠谱
相反如果损失很大
则说明预测函数不准确
这时我们需要调整预测函数
直到损失降到可以接受的范围

当损失降到理想大小后
为了验证预测函数是否真正有效
我们会另找一批数据进行测试
这部分数据称作测试样本集
如果预测函数在测试样本集上的表现也很好
则说明找到的预测函数比较理想
否则说明找到的预测函数不靠谱，需要重新训练
直至找到在训练样本集和测试样本上都能表现很好的预测函数

这就是机器学习的大致过程
首先提供一批数据用作训练
然后通过训练找到合适的预测函数
最后另找一份数据来验证预测函数是否真的靠谱
如果在训练数据中,提供了标准答案，也就是样本标签
则称此类机器学习为监督类机器学习

如果没有提供标准答案，则从此类机器学习为无监督机器学习，比如聚类算法。
本课接下来介绍的算法，均属于监督类机器学习
下节课我们将介绍第一个机器学习算法
线性回归,下节课见~，动画地址以及实践代码：点击查看