在机器学习领域,“没有免费的午餐”是一个不变的定理。简而言之,没有一种算法是完美的,可以作为任何问题的最佳解决方案。认清这一点,对于解决监督学习问题(如预测建模问题)尤其重要。
我们不能总说神经网络就是比决策树好,反之亦然。影响算法性能的因素有很多,比如数据集的大小和结构。
因此,对于自己的问题,要尝试多种不同的算法,并使用测试数据集来评估各个算法的性能,以选出效果最优的那一个。
当然,前面所尝试的算法必须要适合自己的问题,这也正是你要选对正确的机器学习任务的地方。比如,需要打扫房子的时候,你会使用真空吸尘器、扫帚或拖把,但绝不应该用铲子在屋内挖坑。
▌重要的原则
话虽如此,但所有用于预测建模的有监督机器学习算法却有一个共同的原则:
机器学习算法的本质是找到一个目标函数(f),使其成为输入变量(X)到输出变量(Y)之间的最佳映射:Y = f(X)