动画版机器学习:啥是机器学习?如果这个你还看不懂,那我劝你放弃吧

话说小李还在上小学时
曾学过这样一个问题
一个一斤重的苹果2块钱
一个两斤重的苹果4块钱
一个三斤重的苹果6块钱
老师想让小李找到苹果重量到售价的计算方法
以便计算其他重量苹果的售价。

一开始小李没学会,只能瞎猜
因此提交的答案全是错的
在老师的指导下,有所好转
回答对了一题,但是仍不理想


又经过n次的学习和老师细心的指导
小李终于全部回答正确了

但是小李真的学会了吗?
老师在期末测验时,出来一个完全不一样的题
一个四斤重的苹果多少钱
如果小李的回答是8块钱
则说明小李真的学会了,找到了正确的计算方法
如果小李的回答不是8块钱
则说明小李并没有真正学会
哼哼~竟然死记硬背~

机器学习的过程与人类类似
我们把机器学习的过程称作训练
训练时,会提供一批数据
这批数据称作训练样本集
训练样本集中的每一条数据称作一个样本


一个样本包含两个部分:样本特征和样本标签
比如上例中的苹果重量就是样本特征
当然样本可以又很多特征
比如苹果还会有颜色特征,品牌特征等等
样本的第二个部分称作样本标签
就好像贴在样本上的售价标签一样
样本标签作为标准答案来使用

我们希望机器能找到样本特征到样本标签的计算方法
这个方法称作预测函数
预测函数计算出来的结果称作预测结果
显然,预测结果与真实结果,也就是样本标签之间的差距越小越好

扫描二维码关注公众号,回复: 3018934 查看本文章

预测结果与样本标签之间差距的计算函数称作损失函数
损失函数计算出来的结果称作损失大小
损失越小则预测越准确,说明预测函数也就越靠谱
相反如果损失很大
则说明预测函数不准确
这时我们需要调整预测函数
直到损失降到可以接受的范围

当损失降到理想大小后
为了验证预测函数是否真正有效
我们会另找一批数据进行测试
这部分数据称作测试样本集
如果预测函数在测试样本集上的表现也很好
则说明找到的预测函数比较理想
否则说明找到的预测函数不靠谱,需要重新训练
直至找到在训练样本集和测试样本上都能表现很好的预测函数

这就是机器学习的大致过程
首先提供一批数据用作训练
然后通过训练找到合适的预测函数
最后另找一份数据来验证预测函数是否真的靠谱
如果在训练数据中,提供了标准答案,也就是样本标签
则称此类机器学习为监督类机器学习

如果没有提供标准答案,则从此类机器学习为无监督机器学习,比如聚类算法。
本课接下来介绍的算法,均属于监督类机器学习
下节课我们将介绍第一个机器学习算法
线性回归,下节课见~,动画地址以及实践代码:点击查看
 

猜你喜欢

转载自blog.csdn.net/maerdym/article/details/82316774