Zhang, D., Hu, Y., Ye, J., Li, X., & He, X. (2012, June). Matrix completion by truncated nuclear norm regularization. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2192-2199.
本文是这篇 CVPR 会议论文的笔记，主要是对文中的理论方法进行展开详解。本人学术水平有限，文中如有错误之处，敬请指正。
另外：这篇会议论文于 2013 年发表于 PAMI 期刊上，两篇 paper 的内容基本一致。
Hu, Y., Zhang, D., Ye, J., Li, X., & He, X. (2013). Fast and accurate matrix completion via truncated nuclear norm regularization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(9), 2117-2130.

摘要：估计视觉图像中缺失的值是计算机视觉中有挑战的问题，其可以被认为是一个低秩的近似问题。大部分的研究都是用核范数来代替秩操作。然而，在核范数最小化过程中，所有的奇异值一起被最小化，在实际中秩不能被很好地近似。此文提出了一种 Truncated Nuclear Norm Regularization (TNNR) 方法，只最小化较小的 $N − r$ 个部分奇异值，其中 $N$ 是奇异值的总个数， $r$ 是矩阵的秩。这样可以更好地近似矩阵的秩。此文更设计了两种高效的优化算法，alternating direction method of multipliers (ADMM) 和 accelerated proximal gradient line search (APGL) 方法。

图像大小为 400x500，但是主要信息集中于前 20 个特征值

1 简介

在许多的实际的计算视觉和模式识别中，比如图像恢复，数据中有丢失的部分。估计这些矩阵中丢失值得问题，即矩阵补全，已经受到了相当多的关注。视觉数据，，比如图像，有可能是低秩的，如图所示。于是，大部分的矩阵补全问题都旨在找到一个低秩的近似问题。具体的，给定一个不完整的数据 $\mathbf{M} \in \mathbb{R}^{m \times n}$ ，矩阵补全问题可被阐述为

min X s.t. rank (X) X i j = M i j, (i, j) \in Ω, (1)

$\begin{equation} \begin{aligned} \min_{\mathbf{X}} \ & \qquad \text{rank}(\mathbf{X}) \\ \text{s.t.} \,\ & \mathbf{X}_{ij} = \mathbf{M}_{ij}, \ (i,j) \ \in \Omega, \end{aligned} \tag{1} \end{equation}$
其中

X∈Rm×n $\mathbf{X} \in \mathbb{R}^{m \times n}$ ，

Ω $\Omega$ 是已知的元素的对应的位置集合。

然而，以上的秩最小化问题是 NP-hard，因为其非凸性和不连续性。一种广泛采用的方法是核范数，即奇异值之和，作为一个凸的代替方法。受压缩感知的启发， Cand $\grave{e}$ s 和 Recht 最近提出，如果矩阵的行空间和列空间是与标准基不一致的，那么核范数最小化可以恢复出矩阵，如果有足够的已知的元素。

已有的核范数方法，比如 singular value thresholding (SVT 1)，能够在无噪声的合成数据中获得较好的表现。然而，它们在真实的应用中不能得到低秩的解。这是因为核范数不能精确地近似秩函数。具体地，对比秩函数来说，所有的非零的奇异值都被平等处理，核范数则并不是。更差的是，这些方法优势甚至不收敛。因为核范数的理论的要求（比如不一致的性质）在实际中很难被满足。

此文提出了一种新的矩阵补全的方法，truncated nuclear norm regularization (TNNR)，来恢复矩阵中一些缺失的数据。于一般核范数的方法不同的是，并不是同时最小化所有奇异值的和，此文的方法仅最小化较小的 $\min(m,n)-r$ 个奇异值。这样，该方法可以获得一个更精确、鲁棒性的对秩函数的近似。此外，此文提出了两种简单的，高效的优化机制解决目标函数，即 alternating direction method of multipliers (ADMM) 2 和 accelerated proximal gradient line search method (APGL) 3 。

2 相关工作

稀疏表示，低秩矩阵分解相关，略

3 Truncated Nuclear Norm Regularization

令 $\mathbf{X}=(\mathbf{x},\cdots,\mathbf{x}_n)$ 成为一个 $m \times n$ 矩阵， $\Omega \subset\{1,\cdots,m\} \times \{1,\cdots,n\}$ 表示矩阵 $\mathbf{X}$ 中已知元素的索引， $\Omega^{\text{c}}$ 表示缺失元素的索引。可以方便的表示已知的元素

(X Ω) i j = {X i j, 0, if (i, j) \in Ω, if (i, j) \in Ω c . (2)

$\begin{equation} (\mathbf{X}_{\Omega})_{ij} = \begin{cases} \mathbf{X}_{ij}, & \text{if } (i,j) \in \Omega, \\ 0, & \text{if } (i,j) \in \Omega^{\text{c}}. \end{cases} \tag{2} \end{equation}$
正如之前描述的，核范数不能确保很好的近似秩函数在实际中。首先介绍一个定义
定义 3.1 给定一个矩阵

X∈Rm×n $\mathbf{X} \in \mathbb{R}^{m \times n}$ ，truncated nuclear norm

||X||r $||\mathbf{X}||_r$ 定义为最小的

min(m,n)−r $\min(m,n)-r$ 个奇异值之和，也就是

||X||r=∑min(m,n)i=r+1σi(X) $||\mathbf{X}||_r = \sum_{i=r+1}^{\min(m,n)} \sigma_i(\mathbf{X})$ 。于是，目标函数可以写为

min X s.t. | | X | | r X Ω = M Ω . (3)

$\begin{align} \min_{\mathbf{X}} & \quad || \mathbf{X}||_r \\ \text{s.t.} & \ \ \mathbf{X}_\Omega = \mathbf{M}_\Omega. \tag{3} \end{align}$
明显与传统的核范数不同，求解该问题一直可以得到低秩解，只要其存在。由于

||X||r $||\mathbf{X}||_r$ 是非凸的，不容易直接求解。于是，有如下的定义。
Theorem 3.1 对于给定的矩阵

X∈Rm×n $\mathbf{X} \in \mathbb{R}^{m \times n}$ ，

A∈Rm×m $\mathbf{A} \in \mathbb{R}^{m \times m}$ ，

B∈Rm×n $\mathbf{B} \in \mathbb{R}^{m \times n}$ ，和

AAT=I, BBT=I $\mathbf{A} \mathbf{A}^\text{T} = \mathbf{I},\ \mathbf{B} \mathbf{B}^\text{T}=\mathbf{I}$ 。对于正的整数

r≤min(m,n) $r \leq \min(m,n)$ ，我们有

tr (A X B T) \leq \sum i = 1 r σ i (X) . (4)

$\begin{equation} \text{tr} (\mathbf{A} \mathbf{X} \mathbf{B}^\text{T}) \leq \sum_{i=1}^{r} \sigma_i (\mathbf{X}). \tag{4} \end{equation}$
证明根据 Von Neumann 迹不等式，我们得到

tr (A X B T) = tr (X B T A) \leq \sum i = 1 min (m, n) σ i (X) σ i (B T A), (5)

$\begin{equation} \text{tr} (\mathbf{A} \mathbf{X} \mathbf{B}^\text{T}) = \text{tr} (\mathbf{X} \mathbf{B}^\text{T} \mathbf{A}) \leq \sum_{i=1}^{\min(m,n)} \sigma_i (\mathbf{X}) \sigma_i (\mathbf{B}^\text{T} \mathbf{A}), \tag{5} \end{equation}$
其中

σ1(X)≥⋯≥σmin(m,n)(X)≥0 $\sigma_1 (\mathbf{X}) \geq \cdots \geq \sigma_{\min(m,n)} (\mathbf{X}) \geq 0$ 。由于

rank(A)=r $\text{rank} (\mathbf{A}) = r$ ，

rank(B)=r $\text{rank} (\mathbf{B}) = r$ ，所以有

rank(BTA)=s≤r $\text{rank} (\mathbf{B}^\text{T} \mathbf{A})=s \leq r$ 。对于

i≤s $i \leq s$ ，

σi(BTA)>0 $\sigma_i(\mathbf{B}^\text{T} \mathbf{A}) > 0$ 和

σ2i(BTA) $\sigma_i^2 (\mathbf{B}^\text{T} \mathbf{A})$ 是矩阵

BTAATB=BTB $\mathbf{B}^\text{T} \mathbf{A} \mathbf{A}^\text{T} \mathbf{B} = \mathbf{B}^\text{T} \mathbf{B}$ 的第

i $i$ 个特征值，也是

BTB=I $\mathbf{B}^\text{T} \mathbf{B} = \mathbf{I}$ 的一个特征值。所以

σi(BTA)=1 $\sigma_i (\mathbf{B}^\text{T} \mathbf{A}) = 1$ ，对

i=1,2,⋯,r $i=1,2,\cdots,r$ ，其余的都是

0 $0$ 。

\sum i = 1 min (m, n) σ i (X) σ i (B T A) = \sum i = 1 s σ i (X) σ i (B T A) + \sum i = s + 1 min (m, n) σ i (X) σ i (B T A) = \sum i = 1 s σ i (X) \cdot 1 + \sum i = s + 1 min (m, n) σ i (X) \cdot 0 = \sum i = 1 s σ i (X) . (6)

$\begin{equation} \begin{aligned} &\sum_{i=1}^{\min(m,n)} \sigma_i (\mathbf{X}) \sigma_i (\mathbf{B}^\text{T} \mathbf{A}) \\ &= \sum_{i=1}^{s} \sigma_i (\mathbf{X}) \sigma_i (\mathbf{B}^\text{T} \mathbf{A}) + \sum_{i=s+1}^{\min(m,n)} \sigma_i (\mathbf{X}) \sigma_i (\mathbf{B}^\text{T} \mathbf{A}) \\ &= \sum_{i=1}^{s} \sigma_i (\mathbf{X}) \cdot 1 + \sum_{i=s+1}^{\min(m,n)} \sigma_i (\mathbf{X}) \cdot 0 \\ &= \sum_{i=1}^{s} \sigma_i (\mathbf{X}) . \end{aligned} \tag{6} \end{equation}$
因为

s≤r $s \leq r$ 和

σi(X)>0 $\sigma_i (\mathbf{X}) > 0$ ，

∑si=1σi(X)≤∑ri=1σi(X) $\sum_{i=1}^s \sigma_i (\mathbf{X}) \leq \sum_{i=1}^r \sigma_i (\mathbf{X})$ 。结合上述不等式，可以证明得到

tr (A X B T) \leq \sum i = 1 s σ i (X) \leq \sum i = 1 r σ i (X) . (7)

$\begin{equation} \text{tr} (\mathbf{A} \mathbf{X} \mathbf{B}^\text{T}) \leq \sum_{i=1}^s \sigma_i (\mathbf{X}) \leq \sum_{i=1}^r \sigma_i(\mathbf{X}). \tag{7} \end{equation}$
假设

UΣVT $\mathbf{U} \mathbf{\Sigma}\mathbf{V}^\text{T}$ 是矩阵

X $\mathbf{X}$ 的奇异值分解，其中

U=(u1,⋯,um)∈Rm×m $\mathbf{U}=(\mathbf{u}_1, \cdots,\mathbf{u}_m) \in \mathbb{R}^{m \times m}$ ，

Σ∈Rm×n $\mathbf{\Sigma} \in \mathbb{R}^{m \times n}$ ，和

V=(v1,⋯,vn)∈Rn×n $\mathbf{V}=(\mathbf{v}_1, \cdots,\mathbf{v}_n) \in \mathbb{R}^{n \times n}$ 。那么有如下

A = (u 1, \dots, u r) T, B = (v 1, \dots, v r) T . (8)

$\begin{equation} \mathbf{A}=(\mathbf{u}_1, \cdots,\mathbf{u}_r)^\text{T},\ \mathbf{B}=(\mathbf{v}_1, \cdots,\mathbf{v}_r)^\text{T}. \tag{8} \end{equation}$
因为

tr ((u 1, \dots, u r) T X (v 1, \dots, v r)) = tr ((u 1, \dots, u r) T U Σ V T (v 1, \dots, v r)) = tr (((u 1, \dots, u r) T U) Σ (V T (v 1, \dots, v r))) = tr (diag (σ 1 (X), \dots, σ r (X), 0, \dots, 0)) = \sum i = 1 r σ i (X) . (9)

$\begin{equation} \begin{aligned} & \text{tr} \left( (\mathbf{u}_1,\cdots,\mathbf{u}_r)^\text{T} \mathbf{X} (\mathbf{v}_1,\cdots,\mathbf{v}_r) \right) \\ & = \text{tr} \left( (\mathbf{u}_1,\cdots,\mathbf{u}_r)^\text{T} \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\text{T} (\mathbf{v}_1,\cdots,\mathbf{v}_r) \right) \\ & = \text{tr} \left( ((\mathbf{u}_1,\cdots,\mathbf{u}_r)^\text{T} \mathbf{U}) \mathbf{\Sigma} (\mathbf{V}^\text{T} (\mathbf{v}_1,\cdots,\mathbf{v}_r)) \right) \\ & = \text{tr} \left( \text{diag} (\sigma_1(\mathbf{X}),\cdots,\sigma_r(\mathbf{X}),0,\cdots,0) \right) \\ & = \sum_{i=1}^{r} \sigma_i (\mathbf{X}). \end{aligned} \tag{9} \end{equation}$
结合上述公式，可以得到

max A A T = B B T = I tr (A X B T) = \sum i = 1 r σ i (X) . (10)

$\begin{equation} \max_{\mathbf{A}\mathbf{A}^\text{T}=\mathbf{B}\mathbf{B}^\text{T}=\mathbf{I}} \ \text{tr} (\mathbf{A} \mathbf{X} \mathbf{B}^\text{T}) = \sum_{i=1}^r \sigma_i (\mathbf{X}). \tag{10} \end{equation}$
接着有

| | X | | * - max A A T = B B T = I tr (A X B T) = \sum i = 1 min (m, n) σ i (X) - \sum i = 1 r σ i (X) = | | X | | r . (11)

$\begin{equation} ||\mathbf{X}||_* - \max_{\mathbf{A}\mathbf{A}^\text{T}=\mathbf{B}\mathbf{B}^\text{T}=\mathbf{I}} \ \text{tr} (\mathbf{A} \mathbf{X} \mathbf{B}^\text{T}) = \sum_{i=1}^{\min(m,n)} \sigma_i (\mathbf{X}) - \sum_{i=1}^r \sigma_i (\mathbf{X}) = || \mathbf{X} ||_r. \tag{11} \end{equation}$
于是，优化问题可以被重写为

min X s.t. | | X | | * - max A A T = B B T = I tr (A X B T) X Ω = M Ω, (12)

$\begin{align} \min_{\mathbf{X}} & \ ||\mathbf{X}||_* - \max_{\mathbf{A}\mathbf{A}^\text{T}=\mathbf{B}\mathbf{B}^\text{T}=\mathbf{I}} \ \text{tr} (\mathbf{A} \mathbf{X} \mathbf{B}^\text{T}) \\ \text{s.t.} & \ \mathbf{X}_\Omega = \mathbf{M}_\Omega, \tag{12} \end{align}$
其中

A∈Rr×m $\mathbf{A} \in \mathbb{R}^{r \times m}$ ，

B∈Rr×n $\mathbf{B} \in \mathbb{R}^{r \times n}$ 。基于此，此文设计一个简单但是有效的迭代机制。令

X1=MΩ $\mathbf{X}_1 = \mathbf{M}_\Omega$ 为初始化，在第

ℓ $\ell$ 次迭代中，首先固定

Xℓ $\mathbf{X}_\ell$ ，计算

Aℓ $\mathbf{A}_\ell$ 和

Bℓ $\mathbf{B}_\ell$ ，借由

Xℓ $\mathbf{X}_\ell$ 的奇异值分解。接着，固定

Aℓ $\mathbf{A}_\ell$ 和

Bℓ $\mathbf{B}_\ell$ ，更新

Xℓ+1 $\mathbf{X}_{\ell+1}$ 通过一个更简单的问题

min X s.t. | | X | | * - tr (A ℓ X B T ℓ) X Ω = M Ω, (13)

$\begin{align} \min_{\mathbf{X}} & \ ||\mathbf{X}||_* - \text{tr} (\mathbf{A}_\ell \mathbf{X} \mathbf{B}_\ell^\text{T}) \\ \text{s.t.} & \quad\quad \mathbf{X}_\Omega = \mathbf{M}_\Omega, \tag{13} \end{align}$
已知

Aℓ∈Rr×m $\mathbf{A}_\ell \in \mathbb{R}^{r \times m}$ ，

Bℓ∈Rr×n $\mathbf{B}_\ell \in \mathbb{R}^{r \times n}$ 和观测到的矩阵

MΩ $\mathbf{M}_\Omega$ 。算法步骤总结于 Algorithm 1 中。通过反复迭代更新这两步，其可以收敛至局部最小值。

Algorithm 1 TNNR
Input: 原始的不完整的矩阵 $\mathbf{M}_\Omega$ ，其中 $\Omega$ 是已知元素的对应的位置，容限 $\epsilon$ 。
Initialize: $\mathbf{X}_1 = \mathbf{M}_\Omega$ 。
repeat
$\quad$ Step 1 给定一个 $\mathbf{X}_\ell$

[U ℓ, Σ ℓ, V ℓ] = svd (X ℓ),

$\begin{equation} [\mathbf{U}_\ell, \mathbf{\Sigma}_\ell,\mathbf{V}_\ell] = \text{svd} (\mathbf{X}_\ell), \end{equation}$

$\quad$ 其中

U=(u1,⋯,um)∈Rm×m $\mathbf{U} = (\mathbf{u}_1,\cdots,\mathbf{u}_m) \in \mathbb{R}^{m \times m}$ ，

V=(v1,⋯,vn)∈Rn×n $\mathbf{V} = (\mathbf{v}_1,\cdots,\mathbf{v}_n) \in \mathbb{R}^{n \times n}$ 。

$\quad$ 计算

Aℓ $\mathbf{A}_\ell$ 和

Bℓ $\mathbf{B}_\ell$ 如下

A ℓ = (u 1, \dots, u r) T, B ℓ = (v 1, \dots, v r) T .

$\begin{equation} \mathbf{A}_\ell = (\mathbf{u}_1,\cdots,\mathbf{u}_r)^\text{T},\ \mathbf{B}_\ell = (\mathbf{v}_1,\cdots,\mathbf{v}_r)^\text{T} . \end{equation}$

$\quad$ Step 2 求解

X ℓ + 1 = arg min X | | X | | * - tr (A ℓ X B T ℓ) s.t. X Ω = M Ω .

$\begin{align} \mathbf{X}_{\ell+1} = &\arg\min_{\mathbf{X}} \ ||\mathbf{X}||_* - \text{tr} (\mathbf{A}_\ell \mathbf{X} \mathbf{B}_\ell^\text{T}) \\ & \quad \text{s.t.} \qquad \mathbf{X}_\Omega = \mathbf{M}_\Omega. \end{align}$
until

||Xℓ+1−Xℓ||F≤ϵ $||\mathbf{X}_{\ell+1} - \mathbf{X}_\ell ||_\text{F} \leq \epsilon$
Return 恢复的矩阵。

4 优化

需要设计一个有效的优化算法。因为 $||\mathbf{X}||_*$ 和 $-\text{tr} (\mathbf{A}_\ell \mathbf{X} \mathbf{B}_\ell^\text{T})$ 都是凸的，目标函数也是凸的。接下来介绍两种优化机制：増广 Lagrange 乘子法（ADMM）和加速近似梯度法（APGL）。首先介绍一个非常有用的函数，singular value shrinkage operator 4 ：
定义矩阵 $\mathbf{X} \in \mathbb{R}^{m \times n}$ ，秩为 $r$ ，的奇异值分解

X = U Σ V T, Σ = diag ({σ i} 1 \leq i \leq r) . (14)

$\begin{equation} \mathbf{X} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\text{T},\ \mathbf{\Sigma} = \text{diag} (\{\sigma_i\}_{1 \leq i \leq r}) . \tag{14} \end{equation}$
这里定义 singular value shrinkage 操作

D τ (X) = U D τ (Σ) V T, D τ (Σ) = diag ({σ i - τ} +) . (15)

$\begin{equation} \mathcal{D}_\tau (\mathbf{X}) = \mathbf{U} \mathcal{D}_\tau (\mathbf{\Sigma}) \mathbf{V}^\text{T}, \ \mathcal{D}_\tau (\mathbf{\Sigma})=\text{diag} (\{\sigma_i - \tau\}_+). \tag{15} \end{equation}$
对于每一个

τ≥0 $\tau \geq 0$ 和

Y∈Rm×n $\mathbf{Y} \in \mathbb{R}^{m \times n}$ ，这里有

D τ (Y) = arg min X 1 2 | | X - Y | | 2 F + τ | | X | | * . (16)

$\begin{equation} \mathcal{D}_\tau (\mathbf{Y}) = \arg\min_{\mathbf{X}} \ \frac{1}{2} || \mathbf{X} - \mathbf{Y} ||_\text{F}^2 + \tau || \mathbf{X} ||_* . \tag{16} \end{equation}$

4.1 ADMM 优化

将优化目标问题写为

min X, W s.t. | | X | | * - tr (A ℓ W B T ℓ) X = W, W Ω = M Ω . (17)

$\begin{align} \min_{\mathbf{X},\mathbf{W}} &\ \ ||\mathbf{X}||_* - \text{tr} (\mathbf{A}_\ell \mathbf{W} \mathbf{B}_\ell^\text{T}) \\ \text{s.t.} &\ \ \mathbf{X}=\mathbf{W}, \ \mathbf{W}_\Omega = \mathbf{M}_\Omega . \tag{17} \end{align}$
其对应的 Lagrange 函数可以写为

L (X, Y, W) = | | X | | * - tr (A ℓ W B T ℓ) + ρ 2 | | X - W | | 2 F + tr (Y T (X - W)), (18)

$\begin{equation} \mathcal{L} (\mathbf{X}, \mathbf{Y}, \mathbf{W}) = ||\mathbf{X}||_* - \text{tr} (\mathbf{A}_\ell \mathbf{W} \mathbf{B}_\ell^\text{T}) + \frac{\rho}{2} || \mathbf{X}-\mathbf{W}||_\text{F}^2 + \text{tr} (\mathbf{Y}^\text{T} (\mathbf{X} - \mathbf{W})) , \tag{18} \end{equation}$
其中

ρ $\rho$ 是一个正的标量。给定初始值，

X1=MΩ $\mathbf{X}_1 = \mathbf{M}_\Omega$ ，

W1=X1 $\mathbf{W}_1 = \mathbf{X}_1$ 和

Y1=X1 $\mathbf{Y}_1 = \mathbf{X}_1$ ，优化过程可以分为 3 步：
计算 $\mathbf{X}_{k+1}$ : 固定

Wk $\mathbf{W}_k$ 和

Yk $\mathbf{Y}_k$ ，最小化求解

L(X,Yk,Wk) $\mathcal{L} (\mathbf{X}, \mathbf{Y}_k, \mathbf{W}_k)$

X k + 1 = arg min X | | X | | * - tr (A ℓ W k B T ℓ) + ρ 2 | | X - W k | | 2 F + tr (Y T k (X - W k)) . (19)

$\begin{equation} \mathbf{X}_{k+1} = \arg\min_{\mathbf{X}} \ || \mathbf{X} || _* - \text{tr} (\mathbf{A}_\ell \mathbf{W}_k \mathbf{B}_\ell^\text{T}) + \frac{\rho}{2} || \mathbf{X} - \mathbf{W}_k ||_\text{F}^2 + \text{tr} (\mathbf{Y}_k^\text{T} (\mathbf{X} - \mathbf{W}_k)). \tag{19} \end{equation}$
略去其他常数项，可以化简为

X k + 1 = arg min X | | X | | * + ρ 2 | | X - (W k - 1 ρ Y k) | | 2 F . (20)

$\begin{equation} \mathbf{X}_{k+1} = \arg\min_{\mathbf{X}} \ || \mathbf{X} || _* + \frac{\rho}{2} || \mathbf{X} - ( \mathbf{W}_k - \frac{1}{\rho} \mathbf{Y}_k ) ||_\text{F}^2 . \tag{20} \end{equation}$
结合 SVT 操作，可以解得

X k + 1 = D 1 ρ (W k - 1 ρ Y k) . (21)

$\begin{equation} \mathbf{X}_{k+1} = \mathcal{D}_{\frac{1}{\rho}} \left( \mathbf{W}_k - \frac{1}{\rho} \mathbf{Y}_k \right). \tag{21} \end{equation}$

(2) 计算 $\mathbf{W}_{k+1}$ : 固定 $\mathbf{X}_{k+1}$ 和 $\mathbf{Y}_k$ ，最小化求解 $\mathbf{W}_{k+1} = \arg\min\limits_{\mathbf{W}} \ \mathcal{L} (\mathbf{X}_{k+1}, \mathbf{Y}_k, \mathbf{W})$ 。这是一个二次函数，令其梯度等于 $0$ ，可以得到

W k + 1 = X k + 1 + 1 ρ (A T ℓ B ℓ + Y k) . (22)

$\begin{equation} \mathbf{W}_{k+1} = \mathbf{X}_{k+1} + \frac{1}{\rho} (\mathbf{A}_\ell^\text{T} \mathbf{B}_\ell + \mathbf{Y}_k) . \tag{22} \end{equation}$
固定已知的值，只更新未知部分的值

W k + 1 = (W k + 1) Ω c + M Ω . (23)

$\begin{equation} \mathbf{W}_{k+1} = (\mathbf{W}_{k+1})_{\Omega^c} + \mathbf{M}_\Omega . \tag{23} \end{equation}$

(3) 计算 $\mathbf{Y}_{k+1}$ : 固定 $\mathbf{X}_{k+1}$ 和 $\mathbf{W}_{k+1}$ ，只需要计算

Y k + 1 = Y k + ρ (X k + 1 - W k + 1) . (24)

$\begin{equation} \mathbf{Y}_{k+1} = \mathbf{Y}_k + \rho (\mathbf{X}_{k+1} - \mathbf{W}_{k+1}) . \tag{24} \end{equation}$
全部的优化步骤总结于 Algorithm 2 中。

Algorithm 2: ADMM 优化过程
Input: $\mathbf{A}_\ell$ ， $\mathbf{B}_\ell$ ， $\mathbf{M}_\Omega$ 和容限阈值 $\epsilon$ 。
Initialize: $\mathbf{X}_1 = \mathbf{M}_\Omega$ ， $\mathbf{W}_1 = \mathbf{X}_1$ ， $\mathbf{Y}_1 = \mathbf{X}_1$ ， $\rho = 1$ 。
repeat
$\quad$ Step 1: $\mathbf{X}_{k+1} = \mathcal{D}_{\frac{1}{\rho}} \left(\mathbf{W}_k - \frac{1}{\rho} \mathbf{Y}_k \right)$ .
$\quad$ Step 2: $\mathbf{W}_{k+1} = \mathbf{X}_{k+1} + \frac{1}{\rho} (\mathbf{A}_\ell^\text{T} \mathbf{B}_\ell + \mathbf{Y}_k)$ .
固定已知的值，只更新未知部分的值

W k + 1 = (W k + 1) Ω c + M Ω .

$\begin{equation} \mathbf{W}_{k+1} = (\mathbf{W}_{k+1})_{\Omega^c} + \mathbf{M}_\Omega . \end{equation}$

$\quad$ Step 3:

Yk+1=Yk+ρ(Xk+1−Wk+1) $\mathbf{Y}_{k+1} = \mathbf{Y}_k + \rho (\mathbf{X}_{k+1} - \mathbf{W}_{k+1})$ .
until

||Xk+1−Xk||F≤ϵ $|| \mathbf{X}_{k+1} - \mathbf{X}_k ||_\text{F} \leq \epsilon$ .

APGL 优化

实际上，ADMM 是硬约束问题。考虑到实际应用中的有噪声的数据，采用如下的松弛约束问题更有利

min X | | X | | * - tr (A ℓ X B T ℓ) + λ 2 | | X Ω - M Ω | | 2 F, (25)

$\begin{equation} \min_{\mathbf{X}} \ ||\mathbf{X}||_* - \text{tr} (\mathbf{A}_\ell \mathbf{X} \mathbf{B}_\ell^\text{T}) + \frac{\lambda}{2} ||\mathbf{X}_\Omega - \mathbf{M}_\Omega ||_\text{F}^2 , \tag{25} \end{equation}$
其中

λ>0 $\lambda > 0$ 。

APGL 解决如下形式的问题

min X g (X) + f (X), (26)

$\begin{equation} \min_{\mathbf{X}} \ g(\mathbf{X}) + f (\mathbf{X}), \tag{26} \end{equation}$
其中

g $g$ 是闭的，凸的，可能不可微的函数，

f $f$ 是凸的，可微的函数。首先对任意的

t>0 $t > 0$ ，APGL方法构建一个

F(Y) $F(\mathbf{Y})$ 在固定点

Y $\mathbf{Y}$ 的近似

Q (X, Y) = f (Y) + ⟨ X - Y, \nabla f (Y) ⟩ + 1 2 t | | X - Y | | 2 F + g (X) . (27)

$\begin{equation} Q(\mathbf{X}, \mathbf{Y}) = f (\mathbf{Y}) + \langle \mathbf{X} - \mathbf{Y}, \nabla f(\mathbf{Y}) \rangle + \frac{1}{2t} || \mathbf{X} - \mathbf{Y} ||_\text{F}^2 + g (\mathbf{X}). \tag{27} \end{equation}$
APGL 通过迭代优化，更新变量

X $\mathbf{X}$ ，

Y $\mathbf{Y}$ 和

t $t$ 来求解。在第

k $k$ 次迭代中，更新

Xk+1 $\mathbf{X}_{k+1}$ 如下

X k + 1 = arg min X Q (X, Y k) = arg min X g (X) + 1 2 t k | | X - (Y k - t k \nabla f (Y k)) | | 2 F . (28)

$\begin{equation} \mathbf{X}_{k+1} = \arg\min_{\mathbf{X}} \ Q(\mathbf{X}, \mathbf{Y}_k) = \arg\min_{\mathbf{X}} \ g(\mathbf{X}) + \frac{1}{2 t_k} || \mathbf{X} - (\mathbf{Y}_k - t_k \nabla f(\mathbf{Y}_k))||_\text{F}^2. \tag{28} \end{equation}$
在原优化目标中，令

g(X)=||X||∗ $g(\mathbf{X}) = || \mathbf{X} ||_*$ 和

f(X)=−tr(AℓXBTℓ)+λ2||XΩ−MΩ||2F $f (\mathbf{X}) = - \text{tr} (\mathbf{A}_\ell \mathbf{X} \mathbf{B}_\ell^{\text{T}}) + \frac{\lambda}{2} || \mathbf{X}_\Omega - \mathbf{M}_\Omega ||_\text{F}^2$ 。根据上述定理，可以得到

X k + 1 = arg min X | | X | | * + 1 2 t k | | X - (Y k - t k \nabla f (Y k)) | | 2 F = D t k (Y k + t k (A T ℓ B ℓ - λ ((Y k) Ω - M Ω))) . (29)

$\begin{equation} \mathbf{X}_{k+1} = \arg\min_{\mathbf{X}} \ || \mathbf{X} ||_* + \frac{1}{2 t_k} || \mathbf{X} - (\mathbf{Y}_k - t_k \nabla f(\mathbf{Y}_k))||_\text{F}^2 = \mathcal{D}_{t_k} (\mathbf{Y}_k + t_k (\mathbf{A}_\ell^{\text{T}} \mathbf{B}_\ell - \lambda ( (\mathbf{Y}_k)_\Omega - \mathbf{M}_\Omega ) ) ). \tag{29} \end{equation}$
最后，

Yk+1 $\mathbf{Y}_{k+1}$ 和

tk+1 $t_{k+1}$ 按如下的方式更新

Y k + 1 t k + 1 = X k + 1 + t k - 1 t k + 1 (X k + 1 - X k), = 1 + 1 + 4 t 2 k - - - - - - \sqrt 2 . (30) (31)

$\begin{align} \mathbf{Y}_{k+1} &= \mathbf{X}_{k+1} + \frac{t_k - 1}{t_{k+1}} (\mathbf{X}_{k+1} - \mathbf{X}_k), \tag{30} \\ t_{k+1} &= \frac{1 + \sqrt{1 + 4 t_k^2} }{2}. \tag{31} \end{align}$
算法步骤总结于 Algorithm 3 中。由于松弛了硬约束

XΩ=MΩ $\mathbf{X}_\Omega = \mathbf{M}_\Omega$ ， Algorithm 3 更适合于处理噪声数据。另外， Algorithm 3 中有非常快的收敛速度

O(1k2) $O(\frac{1}{k^2})$ 。

Algorithm 3: APGL 优化过程
Input: $\mathbf{A}_\ell$ ， $\mathbf{B}_\ell$ ， $\mathbf{M}_\Omega$ 和容限阈值 $\epsilon$ 。
Initialize: $t_1 = 1$ ， $\mathbf{X}_1 = \mathbf{M}_\Omega$ ， $\mathbf{Y}_1 = \mathbf{X}_1$ 。
repeat
$\quad$ Step 1: $\mathbf{X}_{k+1} = \mathcal{D}_{t_k} (\mathbf{Y}_k + t_k (\mathbf{A}_\ell^{\text{T}} \mathbf{B}_\ell - \lambda ( (\mathbf{Y}_k)_\Omega - \mathbf{M}_\Omega ) ) )$ .
$\quad$ Step 2: $t_{k+1} = \frac{1 + \sqrt{1 + 4 t_k^2} }{2}$ .
$\quad$ Step 3: $\mathbf{Y}_{k+1} = \mathbf{X}_{k+1} + \frac{t_k - 1}{t_{k+1}} (\mathbf{X}_{k+1} - \mathbf{X}_k)$ .
until $|| \mathbf{X}_{k+1} - \mathbf{X}_k ||_\text{F} \leq \epsilon$ .

5 实验

此算法可以对图像中确实的部分像素值进行补全，需要知道的条件除了残缺的图像之外，还需要知道确实部分的位置信息，即每一个像素的在图像中的坐标索引。
这里写图片描述
原文中并没有交代参数 $r$ ，i.e. 截取的奇异值的个数，如何选择。不同的图像对 $r$ 的选择是不同的，在没有先验知识的情况下，只能通过设定一个范围 $[1,30]$ 手动搜索最优值。另外，对于此文的两种优化方法，可以发现 APGL 明显在速度上有极大的优势，对于 ADMM 。

6 结论

此文提出了一种新的 Truncated Nuclear Norm Regularization 方法，用于估计图像中缺失的部分像素值，也就是矩阵补全问题。与传统的核范数（考虑所有的奇异值）不同，此文的方法只考虑最小的 $\min (m, n)−r$ 个奇异值，使得该方法能够更好的近似矩阵的秩函数。此文中还介绍了两种优化目标函数的方法，ADMM 和 APGL 。实验设计于合成的数据和真实的数据中，将 TNNR 方法和其他方法进行比较，得出其优势的效果。

J. F. Cai, E. J. Cand`es, and Z. Shen. A singular value thresholding algorithm for matrix completion. SIAM Journal on Optimization, 20:1956–1982, 2010. ↩
Lin, Z., R. Liu and Z. Su, Linearized Alternating Direction Method with Adaptive Penalty for Low-Rank Representation, in Advances in Neural Information Processing Systems. 2011. p. 612–620. ↩
Toh, K.C. and S. Yun, An accelerated proximal gradient algorithm for nuclear norm regularized linear least squares problems. Pacific Journal of optimization, 2010. 6(15): p. 615–640. ↩
J. F. Cai, E. J. Cand`es, and Z. Shen. A singular value thresholding algorithm for matrix completion. SIAM Journal on Optimization, 20:1956–1982, 2010. ↩

笔记：Matrix completion by Truncated Nuclear Norm Regularization

1 简介

2 相关工作

3 Truncated Nuclear Norm Regularization

4 优化

4.1 ADMM 优化

APGL 优化

5 实验

6 结论

猜你喜欢