TensorFlow 用于机器学习,我们关心的一个领域是在大数据集上加速神经网络模型的训练。
有三种策略,核心理念是并行「parallel」和并发「concurrent」。
并行:多台处理器上同时处理多个任务
并发:在一台处理器上“同时”处理多个任务,实际上是交替执行
一、数据并行训练
把一系列数据的计算工作分摊到多个设备上同时进行。
同步数据并行
使用梯度下降法「SGD」,我们要计算梯度,比如要计算 1000 个元素的梯度,可以把元素分为10组,每个设备计算一组元素的梯度,10 个设备同时计算,然后组合在一起就是所有元素的梯度,他们同步「synchronously」地对参数更新。
但是这些元素的排列有顺序「sequential」,不能随便更新参数,就需要加一个单独的客户机线程「 a single client thread」控制整个循环,来保证顺序。
如图,每个设备都在计算一部分数据,但他们同时汇总在 Parameter Device 处,对参数更新。左侧有一个客户机线程,保证整体的顺序。
异步数据并行
把数据分配给不同的设备计算后,得到的结果也可以异步地对参数更新「asynchronously」。
这时候,为了保证顺序,每个设备都配有一个客户机线程,来保证整体是有序的。
如图,每个设备都在计算一部分数据,他们单独对 Parameter Device 的参数更新,每个部分都有一个客户机线程,保证整体的顺序。
二、模型并行训练
对于同一批样例,把模型不同部分的计算工作分摊到不同的设备上同时进行。
如图,这个神经网络模型有三层,用一个设备计算三层太耗时,就把三层的计算工作分给不同的设备。
我觉得只有一次训练,三层肯定是有顺序的,用多个设备不能减少训练时间。但训练会迭代很多次,同一时间每层都有计算任务,才出现了这种并行方式。
三、模型计算并发执行
并行的方式利用了多个设备,并发的方式是在一个设备上,把模型的计算流水化,在同一组设备中运行少量并发步骤。
如果计算完全按顺序执行,执行完上一个再执行下一个,每一个执行期间,处理器总有空闲的部分,设备得不到充分使用。流水线「pipeline」就是执行这个计算的时候,它不用的部分可以给下个计算使用,达到无缝衔接「filling in the gaps」。
如下图,看起来很像第一种情况——数据并行,但这是在同一个设备中。看起来像几个操作同时进行,但他们不是真的从头到尾的同时,而是上一个还没结束,下一个因为有可使用的资源就已经开始了,这种“同时”属于并发。