Hadamard Product求导案例

1 问题

给定 $\mathbf{x} \in \mathbb{R}^{n \times 1}$ ， $\mathbf{A} \in \mathbb{R}^{n \times n}$ ， $\mathbf{f}(\mathbf{x})=\sqrt{(\mathbf{A} \mathbf{x}) \odot (\mathbf{Ax})}$ 。其中 $\sqrt{(\cdot)}$ 表示Hadamard root (elements-wise square root)，即矩阵元素逐项平方根。求 $\frac{\partial \mathbf{f}}{\partial \mathbf{x}}$ 。

2 求解

2.1 先用Hadamard product解平方根

令: $\mathbf{b} = \mathbf{A} \mathbf{x}$ ，有： $d\mathbf{b} = d(\mathbf{A} \mathbf{x}) = \mathbf{A} d\mathbf{x}$

2.2 矩阵对矩阵求导一般先将矩阵矢量化

$\begin{aligned} \mathbf{f} \odot \mathbf{f} &=(\mathbf{A} \mathbf{x}) \odot (\mathbf{A} \mathbf{x}) \\ &=\mathbf{b} \odot \mathbf{b} \end{aligned}$

根据微分哈达马乘积性质： $d(\mathbf{x} \odot \mathbf{Y})=\mathbf{x} \odot d \mathbf{Y}+d \mathbf{x} \odot \mathbf{Y}$
有：
$\begin{aligned} d(\mathbf{f} \odot \mathbf{f}) &=\mathbf{f} \odot d \mathbf{f}+d \mathbf{f} \odot \mathbf{f} \\ &=\mathbf{f} \odot d \mathbf{f}+\mathbf{f} \odot d \mathbf{f} \\ &= 2\mathbf{f} \odot d \mathbf{f} \\ \operatorname{diag(\mathbf{f})\operatorname{vec(d\mathbf{f})}} &= \operatorname{diag(\mathbf{b})\operatorname{vec(d\mathbf{b})}} \quad (性质：\operatorname{vec}(\mathbf{A} \odot \mathbf{X})=\operatorname{diag}(\mathbf{A}) \operatorname{vec}(\mathbf{X})) \end{aligned}$
其中 $\operatorname{diag}(\mathbf{f})$ 是 $\times n$ 的对角矩阵，对角线上的元素是矩阵 $\mathbf{f}$ 按列向量化后排列出来的； $\operatorname{diag}(\mathbf{b})$ 同理。

$\operatorname{vec(d\mathbf{f})} = \operatorname{diag(\mathbf{f})}^{-1} \operatorname{diag}(\mathbf{b}) \operatorname{vec}(d\mathbf{b})$

$\mathbf{b} \in \mathbb{R}^{n \times 1} \implies \operatorname{vec(d \mathbf{b})} = d \mathbf{b}$

$\therefore \operatorname{diag(\mathbf{f})} d \mathbf{f} = \operatorname{diag(b)} \mathbf{A} d \mathbf{x}$

$\operatorname{vec(d\mathbf{f})} = \operatorname{diag(\mathbf{f})}^{-1} \operatorname{diag(\mathbf{b})} \mathbf{A} d \mathbf{x}$

矩阵对矩阵求导如果采用分母布局，有：
$\operatorname{vec}(d \mathbf{f})=\left(\frac{\partial \mathbf{f}}{\partial \mathbf{x}}\right)^{T} \operatorname{vec}(d \mathbf{x})$
如果是采用分子布局，有：
$\operatorname{vec}(d \mathbf{f})=\left(\frac{\partial \mathbf{f}}{\partial \mathbf{x}}\right) \operatorname{vec}(d \mathbf{x})$

所以，对于此问题，如果采用分母布局：
$\frac{\partial \mathbf{f}}{\partial \mathbf{x}} = \left(\operatorname{diag(\mathbf{f})}^{-1} \operatorname{diag(\mathbf{b})} \mathbf{A}\right)^{T}$
如果采用分子布局：
$\frac{\partial \mathbf{f}}{\partial \mathbf{x}} = \operatorname{diag(\mathbf{f})}^{-1} \operatorname{diag(\mathbf{b})} \mathbf{A}$