CS194 Full Stack Deep Learning(2) Infrastructure and Tooling

0. 前言

相关资料
- fall2019资料
- 《全栈深度学习第2期：开发套件与工具篇》
B站视频（字幕是自动生成的，但也差不多够用）
引子：
- 理想状态下的工作：获取数据 -> 构建预测系统（如服务器API或本地部署程序）
- 实际工作：标注数据 -> 构建/测试模型 -> 管理计算资源 -> 训练/测试模型 -> 部署模型 -> 监控测试结果、构建 flywheel
为了实现实际工作中的各种功能，我们需要选择开发套件与相关工具。
- 本节课关注的就是中间这部分。

维度	所需功能	理想状态	解决方案
开发（Development）	写代码、调试模型、查看结果	快速开发模型并进行训练，最好有图形界面	有1-4GPU的桌面系统或云服务器
训练/测试（Training/Evaluation）	模型结构以及超参数搜索、训练大模型	快速执行训练并回顾结果	4卡桌面系统，或GPU集群

云服务供应商对比
- AWS最贵，只能使用预设实例。可以关注下Spot实例，很便宜。
- Google Cloud Platform有多重GPU选择（不是预设实例，可自己选择）且支持TPU
- 没人推荐使用Azure
- 有一些新兴选择，国外的也不关心了。
买实体机，可以买组装好的（pre-built），也可以自己组装
价格对比思路：
- 计算实体机与云服务器的价格，看看实体机的价格能够租服务器跑多久。
- 另一种思路，我们需要尽快完成训练，一次开多个实例进行训练，总时间（GPU hours）不变，但由于并行训练，实际过去的时间少了。
实际情况：
- 云服务器很贵，但扩展很容易。
- 本地服务器便宜，但超过一定数量后维护非常麻烦。
建议：
- 对于单人开发者、刚刚起步的团队：使用4卡Turing PC开发，使用相同的4卡PC训练（直到architecture is dialed in），如果需要更多算力可以再买一台或租云服务器。
- 对于大公司：每个ML Scientist配一台4卡Turing PC，或使用V100实例，使用云服务器实例进行训练与测试。

深度学习框架
- 如果没有特殊要求，就TensorFlow/Keras和PyTorch二选一。
  - 目前发展方向类似，都是易于开发的 define-by-run 模式（即TF中的eager模式），以及多平台优化的静态计算图（即PyTorch中的TorchScript）。
- 目前新项目PyTorch较多。
- fast.ai 可能适合一些新手且不深入的用户。
分布式训练
- 分布式训练有两种方式，数据并行或模型并行。
- TF/PyTorch自带分布式训练功能。
- 其他解决方案包括Ray、Horovod。
实验管理
- 现状：就算一次跑一个实验，时间长了也会搞糊涂，更不要说跑多个实验了。
- Tensorboard：记录单次实验不错的方案，但管理多个实验非常不方便。
- Losswise/Comet.ml/Weights & Biases：这些都类似，都是安装一个包，在训练过程中按照tensorboard的方式调用，不同之处在tensorboard保存数据在本地，而其他库则是上传到对应服务器，然后到对应网站中查看。
- MLFlow Tracking：开源软件，可以本地部署相关平台，功能非常强大。
超参数调节：
- Hyperas，即 Keras + Hyperopt
- Sigopt，没细看
- Ray-Tune：看来后续要查一下这个相关内容了，有很多SOTA算法
- Weights & Biases 有相关内容
All-in-one，即一体化解决方案