机器学习的预测原理

在机器学习里有一个叫预测函数的东西，你只要输入一些值，它就能给你一个输出；例如：
- 你告诉它前几天的股票价格，它会帮你预测后面几天的价格
- 你告诉它一幢房子的面积，它能帮你预测这个房子的价格
- 你给它一张CT的图像，它可以告诉你这种CT的主人是否患有肿瘤
- ……
我们可以把预测函数当成一头奶牛，吃进去的是草，挤出来的是奶。

这里的奶牛其实就是预测函数，草就是数据，奶就是预测结果。也就是下面这样的。

那么现在问题来了：
- 这些数据的格式都是什么？为什么要输入这些数据？
- 预测函数是怎么工作的？

数据的格式以及作用

还是用奶牛来举例子，想要奶牛消化吸收好，美味青草不可少；所以我们要输入的预测数据也必须是“美味青草”，这里的“美味青草”指的就是预测函数事先规定的能接受的数据，换而言之这些数据的格式都是在定义预测函数的时候就定义好的，所以我们必须按照定义好的数据格式来输入数据。
那为什么一定要输入这些数据呢？这是由于结果导向所致，什么叫结果导向？比如说我们要预测一个房子的价格，那么影响这个房子价格的因素有房子的地段、房子的面积、朝向、宏观经济背景以及个人主观原因等等。我们没办法把所有的因素都考虑进去，只能挑选一些影响力比较大的因素数据输入进去，按照我们的常识来说房子当然是越大越值钱，所以我们就可以定义一个预测函数然后把房子面积输入进去让预测函数告诉我们这个房子值多少钱。（当然如果你知道小区里有多少户姓王的人家，也可以试着把数据输入进去，但是这个数据跟我们要预测的结果关系并不大，所以我们没必要考虑这个条件）
总的来说，数据格式就是预测函数事先定义好的，而这些数据要和预测的结果有比较强的相关性，这样才能让预测函数更好地对结果进行预测。

预测函数是如何工作的？

先来做一个简单的数学题，一斤猪肉的价格是40元，假如小明要购买两斤，那么小明需要花费多少元？
相信聪明的你一定很快就能算出来了， $40×2=80$ 。嗯，没错结果就是80，事实上预测函数做的事情跟我们刚才做的数学题是差不多的。
回到我们刚刚所说的房子的价格的计算问题上，我们只需要给定一个房子的面积，它就能告诉我们房子的价格是多少。仔细想想这也是一道简单的数学题呀，我们已经知道了房子的面积，我们只要再知道每平方米的价格就能算出总价格了呀。
可问题在于预测函数并不知道每平方米的价格，这可怎么办呢？这时候我们就需要用大量的数据去训练它，让它知道每平方米大概值多少钱。
- 首先预测函数也不知道每平方的价格是多少钱，就先随便定个数，一平米一块钱吧。
- 接着开始输入数据，输入了一个一百平米的房子的数据，于是预测函数开始疯狂计算一平米一块钱，那么一百平米的房子就是一百块。好，那么就输出结果一百块。
- 然后看一下真实的数据，原来这幢一百平米的房子价值一百万，预测函数掐指一算感到事情不妙：估值给太低了要赶紧调整，一平米应该是一万块才对。于是它就调整成一平米的面积价值一万块。
- 接着再输入数据，输入一个二百平米的房子的数据，于是预测函数又开始了疯狂的计算一平米一万块钱，那么二百平米就是两百万。好，那么就输出结果两百万。
- 然后再看一下真实的数据，发现这个两百平米的房子就是价值两百万。预测函数一看心想：我真是个天才，太棒了，那就不用改了。
上面就是一个简单的机器学习的大概的过程，事实上机器学习的过程还用到损失函数和梯度下降，在这里先不展开。

vzfearless

发布了22 篇原创文章 · 获赞 15 · 访问量 1万+

私信关注

通俗的解释机器学习的预测原理

机器学习的预测原理

数据的格式以及作用

预测函数是如何工作的？

猜你喜欢