基线模型只会花费你少于十分之一的时间,却可以导出超过90%的结果。
从一个基线模型开始,能让你首先清楚问题的瓶颈之处!
基线模型让复杂模型陷入两难之地
- 缺省可得性能水平
- 人类性能指标
- 可部署性能水平
合理自动生成性能:过相对简单的模型可以得到的结果。通过这个重要的对标值,能够评估一个复杂模型是否表现良好,并且让我们不再在准确性与复杂性之间纠结。
基线模型更容易部署
好处:
- 训练迅速:能够迅速得到性能反馈。
- 更容易研究:这意味着遇到的大多数错误能够更容易定位是模型的缺陷,还是数据中的错误。
- 迅速推断:部署基线模型不需要太多架构层面的修改,并且不会导致潜在的风险。
一旦你创建并部署了基线模型,你已经处于下一步行动的最佳决策点了。
基线模型会让你迅速得到性能对标结果
基线模型能帮助你理解数据
如果选择的基线模型表现不错,那么你已经帮自己解决了建造复杂模型的大部分困难;反之,找出建造基线模型过程中的错误对于发现数据中的偏差与特定错误非常有建设意义。
许多阻拦机器学习进程的问题往往是因为没能理解和准备好数据,而不是选择一个更加复杂的模型。
基线模型能帮助你理解任务
基线模型还能帮你了解哪部分内容比较难、哪部分比较简单。照此思路,你还能定位应该改进模型的哪个方面,从而更好地解决困难的部分。
大多数机器学习问题都遵循“天底下没有免费的午餐”定理:不存在能够解决所有问题的方案。真正的挑战在于从各种架构中进行选择、决定恰当的策略、以及选择最适用于抽取及利用目标数据结构的模型。
什么时候不选择基线模型
对于有些任务来说,建造有效的基线模型的确很困难。如果你试图将一个录音中的不同人的说话内容分开(鸡尾酒效应),也许你得从一个复杂模型开始才能得到令人满意的结果。
在这类情况下,与其简化模型,采取简化数据的方法更加恰当。也就是说,让这个复杂模型过拟合现有数据集中的极小一部分。如果模型的表现能力够强,那这应该很简单;但如果表现能力差强人意,那么也许你需要试一试别的模型了。
结论
人们都有一个倾向,如果有更加强大的解决方法,往往就会忽略掉简单的解决办法。但是在机器学习的大多数领域中,从基础开始往往更有价值。
尽管学着实施复杂模型确实有些难度,但机器学习工程师们最大的挑战其实是如何给特定的任务选择建模策略。
先用一个简单模型可以很大程度上带来帮助;如果表现得不尽如人意,那么在采用更加复杂的模型时就可以避开在基线模型中已经发现的问题,从而达到更好的建模效果。
基线模型表示对照组、基准线,这是以后用来被对比的模型。