【文献阅读】异构网络中的联邦优化——FedProx

本文是FedProx的论文，值得一看。

由于本文之前有简单看过一次，这次就不细读，就只读其中比较重要的部分也就是PedProx的实现和收敛证明。

定义 1：（ $\gamma$ -不精确解）

对于一个函数 $h(w;w_0)=F(w)+\frac{\mu}{2}\Vert w-w_0\Vert^2$ ，其中 $\gamma\in[0,1]$ 。我们认为 $w^*$ 是优化目标 $\min_wh(w;w_0)$ 的一个 $\gamma$ -不精确解，当且仅当 $\Vert \nabla h(w^*;w_0)\Vert\le \gamma \Vert \nabla h(w_0;w_0)\Vert$ ，其中 $\nabla h(w;w_0)=\nabla F(w)+\mu(w-w_0)$ 。注意当 $\gamma$ 越小，意味着精确度越高。

在后文的分析中都使用了这个概念来测量每一轮的计算量。

之后文章指出FedAvg的主要问题：虽然执行更多的本地epoch允许更多的本地计算和减少通信，可以大大提高通信受限网络中的总体收敛速度。更大的本地epoch可能导致每个设备朝向其本地目标的最优，可能会影响收敛，甚至导致方法发散。

比强制规定固定数量的本地epoch更自然的方法，是允许epoch根据网络的特性而变化，并通过考虑这种异构性来谨慎地合并解决方案。

框架：FedProx

强制每个设备执行统一的工作量是不现实的。我们通过允许基于设备的可用系统资源在本地执行不同数量的工作来概括FedAvg，然后聚合掉队者发送的部分解决方案。

换句话说，FedProx不是在整个训练过程中为所有设备假设统一的 $\gamma$ ，而是隐式地为不同的设备和不同的迭代适应可变的 $\gamma$ 。正式地，对于第 $t$ 轮训练的第 $k$ 个用户，我们定义 $\gamma^t_k$ - 不确定度，

定义 2：（ $\gamma^t_k$ -不精确解）

对于一个函数 $h_k(w;w_t)=F_k(w)+\frac{\mu}{2}\Vert w-w_t\Vert^2$ ，其中 $\gamma\in[0,1]$ 。我们认为 $w^*$ 是优化目标 $\min_wh_k(w;w_t)$ 的一个 $\gamma^t_k$ -不精确解，当且仅当 $\Vert \nabla h_k(w^*;w_t)\Vert\le \gamma^t_k \Vert \nabla h(w_t;w_t)\Vert$ ，其中 $\nabla h(w;w_0)=\nabla F(w)+\mu(w-w_0)$ 。注意当 $\gamma^t_k$ 越小，意味着精确度越高。

意思就是，加了“正则项”后的损失函数在当前 $t$ 轮权重下的梯度，乘个 $\gamma^t_k$ 这个系数后得到一个值，如果有一个权重 $w^*$ 使得当前 $t$ 轮下的梯度小于这个值，那就叫 $\gamma^t_k$ -不精确解。类似于 $\gamma$ ， $\gamma^t_k$ 度量了在第 $t$ 轮设备 $k$ 上执行多少本地计算来解本地函数。