TenorFlow 如何加速神经网络的训练（策略）

TensorFlow 用于机器学习，我们关心的一个领域是在大数据集上加速神经网络模型的训练。

有三种策略，核心理念是并行「parallel」和并发「concurrent」。

并行：多台处理器上同时处理多个任务
并发：在一台处理器上“同时”处理多个任务，实际上是交替执行

一、数据并行训练

把一系列数据的计算工作分摊到多个设备上同时进行。

使用梯度下降法「SGD」，我们要计算梯度，比如要计算 1000 个元素的梯度，可以把元素分为10组，每个设备计算一组元素的梯度，10 个设备同时计算，然后组合在一起就是所有元素的梯度，他们同步「synchronously」地对参数更新。

但是这些元素的排列有顺序「sequential」，不能随便更新参数，就需要加一个单独的客户机线程「 a single client thread」控制整个循环，来保证顺序。

如图，每个设备都在计算一部分数据，但他们同时汇总在 Parameter Device 处，对参数更新。左侧有一个客户机线程，保证整体的顺序。
在这里插入图片描述

把数据分配给不同的设备计算后，得到的结果也可以异步地对参数更新「asynchronously」。

这时候，为了保证顺序，每个设备都配有一个客户机线程，来保证整体是有序的。

如图，每个设备都在计算一部分数据，他们单独对 Parameter Device 的参数更新，每个部分都有一个客户机线程，保证整体的顺序。
在这里插入图片描述

对于同一批样例，把模型不同部分的计算工作分摊到不同的设备上同时进行。

如图，这个神经网络模型有三层，用一个设备计算三层太耗时，就把三层的计算工作分给不同的设备。

我觉得只有一次训练，三层肯定是有顺序的，用多个设备不能减少训练时间。但训练会迭代很多次，同一时间每层都有计算任务，才出现了这种并行方式。
在这里插入图片描述

并行的方式利用了多个设备，并发的方式是在一个设备上，把模型的计算流水化，在同一组设备中运行少量并发步骤。

如果计算完全按顺序执行，执行完上一个再执行下一个，每一个执行期间，处理器总有空闲的部分，设备得不到充分使用。流水线「pipeline」就是执行这个计算的时候，它不用的部分可以给下个计算使用，达到无缝衔接「filling in the gaps」。

如下图，看起来很像第一种情况——数据并行，但这是在同一个设备中。看起来像几个操作同时进行，但他们不是真的从头到尾的同时，而是上一个还没结束，下一个因为有可使用的资源就已经开始了，这种“同时”属于并发。
在这里插入图片描述

catOneTwo

原创文章 46 获赞 36 访问量 2万+

关注私信