0% found this document useful (0 votes)
50 views

23 Lect DualAlgo

The document discusses the dual approximate gradient method for solving optimization problems. It introduces the dual problem formulation and explains how to apply gradient ascent to solve the dual problem. The dual approximate gradient method approximates the dual objective function as the sum of a gradient Lipschitz continuous function and another term with a simple proximal operator. This allows applying the proximal gradient method to solve the dual problem in an alternating minimization framework.

Uploaded by

zhongyu xia
Copyright
© © All Rights Reserved
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
50 views

23 Lect DualAlgo

The document discusses the dual approximate gradient method for solving optimization problems. It introduces the dual problem formulation and explains how to apply gradient ascent to solve the dual problem. The dual approximate gradient method approximates the dual objective function as the sum of a gradient Lipschitz continuous function and another term with a simple proximal operator. This allows applying the proximal gradient method to solve the dual problem in an alternating minimization framework.

Uploaded by

zhongyu xia
Copyright
© © All Rights Reserved
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 51

对偶算法

文再文
北京大学北京国际数学研究中心
教材《最优化:建模、算法与理论》配套电子教案
http://bicmr.pku.edu.cn/~wenzw/optbook.html

致谢:本教案由朱桢源协助准备

1/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

2/51
对偶方法
次 梯度法 :速度慢,步长选择困难
梯 度法:需要对偶函数可微

对偶函数可能不可微,或定义域非平凡

对原始函数加小的强凸项,将对偶函数光滑化

增广拉格朗日法:

等价于对光滑化的对偶问题做梯度上升

但是光滑化会破坏可分结构

近 似点 梯度 法(本讲):对偶函数分裂成两项

一项是梯度利普希茨连续函数

另一项有方便计算的近似点算子
3/51
对偶问题

设f ,h 是闭凸函数,考虑如下形式的问题:

(P) min ψ(x) = f (x) + h(Ax).


x∈Rn

引入新变量y = Ax,考虑问题:

(P) min ψ(x) = f (x) + h(y), s.t. Ax = y.


x∈Rn

拉格朗日函数为:

L(x, y, z) = f (x) + g(y) + zT (Ax − y)

对偶问题

(D) max φ(z) = −f ∗ (−AT z) − h∗ (z).


z

4/51
Dual methods

apply first-order method to dual problem

max −f ∗ (−AT z) − h∗ (z)

reasons why dual problem may be easier for first-order method:


dual problem is unconstrained or has simple constraints

dual objective is differentiable or has a simple nondifferentiable


term

decomposition: exploit separable structure

5/51
(Sub-)gradients of conjugate function

assume f : Rn → R is closed and convex with conjugate

f ∗ (y) = sup(yT x − f (x))


x

subgradient
f ∗ is subdifferentiable on (at least) int dom f ∗
maximizers in the definition of f ∗ (y) are subgradients at y

y ∈ ∂f (x) ⇔ yT x − f (x) = f ∗ (y) ⇔ x ∈ ∂f ∗ (y)

gradient: for strictly convex f , maximizer in definition is unique if it


exists

∇f ∗ (y) = argmax(yT x − f (x)) (if maximum is attained)


x

6/51
Equality constraints

min f (x) min f ∗ (−AT z) + bT z


s.t. Ax = b
dual gradient ascent (assuming dom f ∗ = Rn ):

x̂ = argmin(f (x) + zT Ax), z+ = z + t(Ax̂ − b)


x

x̂ is a subgradient of f ∗ at −AT z ( i.e., x̂ ∈ ∂f ∗ (−AT z))


b − Ax̂ is a subgradient of f ∗ (−AT z) + bT z at z
of interest if calculation of x̂ is inexpensive (for example, f is
separable)

7/51
Alternating minimization framework
The Lagrangian function is

L(x, z) = f (x) + z> (Ax − b).

The problem is equivalent to

max min L(x, z).


z x

The dual gradient ascent method is equivalent to the following


alternating minimization scheme:

xk+1 = argmin L(x, zk )


x
= argmin(f (x) + (zk )T Ax)
x
1
zk+1 = argmax L(xk+1 , z) − kz − zk k22
z 2t
= z + t(Axk+1 − b)
k

8/51
Dual decomposition

convex problem with separable objective

min f1 (x1 ) + f2 (x2 )


s.t. A1 x1 + A2 x2 ≤ b

constraint is complicating or coupling constraint

dual problem

max −f1∗ (−AT1 z) − f2∗ (−AT2 z) − bT z


s.t. z ≥ 0

can be solved by (sub-)gradient projection if z ≥ 0 is the only


constraint

9/51
Dual subgradient projection

subproblems: to calculate fj∗ (−ATj z) and a (sub-) gradient for it,

min (over xj ) fj (xj ) + zT Aj xj

optimal value is fj∗ (−ATj z); minimizer x̂j is in ∂fj∗ (−ATj z)

dual subgradient projection method

x̂j = argmin(fj (xj ) + zT Aj xj ), j = 1, 2


xj
+
z = (z + t(A1 x̂1 + A2 x̂2 − b))+

minimization problems over x1 , x2 are independent


z-update is projected subgradient step (u+ = max{u, 0}
elementwise)
10/51
强凸函数共轭函数的性质
设f (x)是适当且闭的强凸函数,强凸参数为µ > 0,则f ∗ (y)在全空
间Rn 上有定义,f ∗ (y)是梯度 µ1 -利普希茨连续的可微函数.
证明:
对任意的y ∈ Rn ,f (x) − xT y是强凸函数,因此对任意的y ∈ Rn ,
存在唯一的x ∈ dom f ,使得f ∗ (y) = xT y − f (x).根据最优性条件

y ∈ ∂f (x) ⇔ f ∗ (y) = xT y − f (x).

由于f (x)是闭凸函数,二次共轭为其本身,于是对同一组x, y有

xT y − f ∗ (y) = f (x) = f ∗∗ (x) = sup xT y − f ∗ (y) .



y

这说明y也使得xT y − f ∗ (y)取到最大值.根据一阶最优性条件,

x ∈ ∂f ∗ (y).

再根据x的唯一性容易推出∂f ∗ (y)中只含一个元素,故f ∗ (y)可微.


11/51
下证f ∗ (y)为梯度 µ1 -利普希茨连续的.对任意的y1 , y2 ,存在唯一
的x1 , x2 ∈ dom f 使得

y1 ∈ ∂f (x1 ), y2 ∈ ∂f (x2 ).

根据次梯度性质以及f (x) − µ2 kxk2 是凸函数,

f (x2 ) ≥ f (x1 ) + (y1 − µx1 )T (x2 − x1 ),


f (x1 ) ≥ f (x2 ) + (y2 − µx2 )T (x1 − x2 ),

将上述两式相加得

(y1 − y2 )T (x1 − x2 ) ≥ µkx1 − x2 k2 .

根据x和y的关系我们有x1 = ∇f ∗ (y1 ), x2 = ∇f ∗ (y2 ),代入上式可得

(y1 − y2 )T (∇f ∗ (y1 ) − ∇f ∗ (y2 )) ≥ µk∇f ∗ (y1 ) − ∇f ∗ (y2 )k2 .

这正是∇f ∗ (y)的余强制性,可知∇f ∗ (y)是 µ1 -利普希茨连续的.


12/51
对偶问题中的复合结构

为了在对偶问题上使用近似点梯度法,φ(z) 需要满足“可微函数+ 凸函
数” 的复合形式:

h 或h∗ 的近似点算子容易计算(有闭形式或简单算法)

f 是闭的强凸函数
我们下面证明这意味着f ∗ (−AT z) 是梯度利普希茨连续函数:

kAk22
kA∇f ∗ (−AT z1 ) − A∇f ∗ (−AT z2 )k2 ≤ kz1 − z2 k2
µ

13/51
对偶近似点梯度更新

考虑在对偶问题上应用近似点梯度算法,每次迭代更新如下:

zk+1 = proxth∗ zk +tA∇f ∗ −AT zk




对偶问题是取最大值,因此邻近算子内部应该取上升方向.
进一步引入变量xk+1 = ∇f ∗ (−AT zk ),迭代格式等价于
n T o
xk+1 = arg min f (x) + AT zk x , zk+1 = proxth∗ zk + tAxk+1

x

如果f 可分, x 的计算可分解为多个独立的问题

步长t 可取常数或采取回溯线搜索法

可使用加速近似点梯度法

下面我们将提供另一种角度来理解对偶近似点梯度法.
14/51
Moreau 分解

设f 是定义在Rn 上的适当的闭凸函数,则对任意的x ∈ Rn ,

x = proxf (x) + proxf ∗ (x);

或更一般地,
x
x = proxλf (x) + λproxλ−1 f ∗ ,
λ
其中λ > 0为任意正实数.

Moreau 分解的结论表明:对任意的闭凸函数f ,空间Rn 上的恒等


映射总可以分解成两个函数f 与f ∗ 邻近算子的和.

15/51
交替极小的解释

取λ = t, f = h∗ ,并注意到h∗∗ = h,我们有

zk
 
k k+1 k k+1
z + tAx = proxth∗ (z + tAx ) + tproxt−1 h + Axk+1
t
zk
= zk+1 + tproxt−1 h ( + Axk+1 ),
t
由此给出对偶近似点梯度法等价的针对原始问题的更新格式:

xk+1 = argmin f (x) + (zk )T Ax ,



x
 k 
k+1 z k+1
y = proxt−1 h + Ax
t
n t o
= argmin h(y) − (zk )T (y − Axk+1 ) + kAxk+1 − yk22 ,
y 2
zk+1 = zk + t(Axk+1 − yk+1 ).

16/51
交替极小方法
考虑等价问题:

min f (x) + h(y), s.t. y = Ax


x,y

定义拉格朗日函数和增广拉格朗日函数:
L(x, y, z) = f (x) + h(y) − zT (y − Ax)
t
Lt (x, y, z) = f (x) + h(y) − zT (y − Ax) + ky − Axk2
2
等价的交替极小格式是

xk+1 = arg min L(x, yk , zk )


x
yk+1 = arg min Lt (xk+1 , y, zk )
y
k+1
z = z + t(Axk+1 − yk+1 )
k

对偶近似点梯度法等价于对原始约束问题使用交替极小化方法
17/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

18/51
正则化范数近似
假设f 是强凸函数,k · k是任意一种范数,考虑

min f (x) + kAx − bk

对应原始问题我们有h(y) = ky − bk
(
bT z kzk∗ ≤ 1
h∗ (z) = proxth∗ (x) = Pkzk∗ ≤1 (x − tb)
+∞ 其他

其中k · k∗ 表示k · k的对偶范数. 从而对偶问题为:

max −f ∗ (−AT z) − bT z
kzk∗ ≤1

应用对偶近似点梯度法,更新如下:
xk+1 = argmin f (x) + (AT zk )T x

x
k+1
z = Pkzk∗ ≤1 (zk + t(Axk+1 − b))
19/51
正则化范数近似

考虑等价问题
min f (x) + kyk, s.t. Ax − b = y
x,y

交替极小化格式是

xk+1 = argmin f (x) + kyk k + (zk )T (Ax − b − yk )


x
t
yk+1
= argmin f (xk+1 ) + kyk + (zk )T (Axk+1 − b − y) + kAxk+1 − b − yk22
y 2
zk+1 = zk + t(Axk+1 − b − yk+1 )

20/51

假设f 是强凸函数,考虑
p
X
min f (x) + kBi xk2 ,
i=1
p
即h(y1 , y2 , · · · , yp ) = kyi k2 ,且
P
i=1
T
A = BT1 BT1 · · · BTp .


根据k · k2 的共轭函数定义,对偶问题形式如下:
p
!
X
∗ T
max −f − Bi zi ,
kzi k2 ≤1
i=1

记Ci 是Rmi 中的单位欧几里得球,对偶近似点梯度法更新如下:


p
( )
X
xk+1 = argmin f (x) + ( BTi zi )T x ,
x
i=1
zk+1
i = PCi (zki + tBi x k+1
), i = 1, 2, · · · , p. 21/51
数值实验

1
f (x) = ||Cx − d||22
2
随机生成C ∈ R2000×1000 , Bi ∈ R10×1000 , p = 500

100
gradient
FISTA
-1
10
f ⋆ − dual objective

10-2

10-3
f⋆

10-4

10-5

10-6 0 100 200 300 400 500 600 700 800 900
k

22/51
在凸集交上的极小化
假设f 是强凸函数,集合Ci 为闭凸集,且易于计算投影,考虑
min f (x),
s.t. x ∈ C1 ∩ C2 ∩ · · · ∩ Cm ,
m T
我们有h(y1 , y2 , · · · , ym ) = ICi (yi ),A = I I · · · I , 对偶问题为
P 
i=1
m
! m
X X
max −f ∗ − zi − IC∗ i (zi ),
zi ∈Ci
i=1 i=1

IC∗ i (zi )是集合Ci 的支撑函数,其显式表达式不易求出.因此我们利


用Moreau 分解将迭代格式写成交替极小化方法的形式:
 !T 
 m
X 
xk+1 = argmin f (x) + zi x ,
x  
i=1

zki
 
yk+1
i = PCi + xk+1 , i = 1, 2, · · · , m,
t
zk+1
i = zki + t(xk+1 − yk+1
i ), i = 1, 2, · · · , m.
23/51
可分问题的拆分
假设fi 是强凸函数,h∗i 有易于计算的邻近算子.考虑
n
X m
X
min fj (xj ) + hi (Ai1 x1 + Ai2 x2 + · · · + Ain xN ),
j=1 i=1

其对偶问题形式如下:
m
X n
X
max − h∗i (zi ) − fj∗ (−AT1j z1 − AT2j z2 − · · · − ATmj zm ).
i=1 j=1

对偶近似点梯度法更新如下:
( m
)
X
xjk+1 = argmin fj (xj ) + ( Aij zki )T xj , j = 1, 2, · · · , n,
xj
i=1
 
n
X
zk+1
i =proxth∗i zi + t Aij xjk+1  , i = 1, 2, · · · , m.
j=1
24/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

25/51
鞍点问题
令f , h是适当的闭凸函数. 考虑原始问题:

min f (x) + h(Ax),

由于h有自共轭性,我们将问题变形为
def
(LPD ) min max ψPD (x, z) == f (x) − h∗ (z) + zT Ax. (1)
x z

可以看到此时问题变成了一个极小– 极大问题,即关于变量x求极
小,关于变量z求极大,这是一个典型的鞍点问题.
另一种常用的鞍点问题定义方式构造拉格朗日函数.问题

min f (x) + h(y), s.t. y = Ax.


x∈Rn ,y∈Rm

相应的鞍点问题形式如下:

(LP ) min max f (x) + h(y) + zT (Ax − y). (2)


x,y z
26/51
PDHG 算法
PDHG 算法的思想就是分别对两类变量应用近似点梯度算法.

以求解问题(1) 为例,PDHG 算法交替更新原始变量以及对偶变


量,其迭代格式如下:
 
k+1 ∗

k k
1 k 2
z = argmax −h (z) + Ax , z − z − kz − z k2
z 2δk
= proxδk h∗ (zk + δk Axk ),
 
k+1 T 1 k 2
xk+1 k
= argmin f (x) + (z ) A(x − x ) + kx − x k2
x 2αk
= proxαk f (xk − αk AT zk+1 ),

其中αk , δk 分别为原始变量和对偶变量的更新步长.

它在第一步固定原始变量xk 针对对偶变量做梯度上升,在第二步
固定更新后的对偶变量zk+1 针对原始变量做梯度下降.在这里注
意,原始变量和对偶变量的更新顺序是无关紧要的,若先更新原
始变量,其等价于在另一初值下先更新对偶变量.
27/51
Chambolle-Pock算法

PDHG 算法的收敛性需要比较强的条件,有些情形下未必收敛.

Chambolle-Pock算法与PDHG 算法的区别在于多了一个外推步

具体的迭代格式如下:

zk+1 = proxδk h∗ (zk + δk Ayk ),


xk+1 = proxαk f (xk − αk AT zk+1 ),
yk+1 = 2xk+1 − xk .

28/51
三项函数拆分

考虑
min f1 (x) + f2 (Bx) + f3 (x),
x

其中f1 , f2 , f3 是三个下半连续的凸函数,且f1 具有Lipschitz连续常


数 β1 ,β ∈ [0, ∞),B ∈ Rm×n 。
Saddle point 问题形式:

min max f1 (x) + hz, Bxi − f2∗ (z) + f3 (x)


x z

PDFP算法更新如下:
 T
yk+1 = proxγf3 (xk − γ∇f1 (xk ) − λB zk ),

zk+1 = (I − prox γ f2 )(Byk+1 + zk ),
 λ
xk+1 = proxγf3 (xk − γ∇f1 (xk ) − λBT zk+1 ).

其中0 < λ < 1


λmax (BBT )
,0 < γ < 2β。
29/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

30/51
LASSO问题求解
考虑LASSO问题
def 1
minn ψ(x) == µkxk1 + kAx − bk22 .
x∈R 2
取f (x) = µkxk1 和h(x) = 12 kx − bk22 ,相应的鞍点问题:
min max f (x) − h∗ (z) + zT Ax.
x∈Rn z∈Rm

根据共轭函数的定义,
 
∗ 1 1
h (z) = sup y z − ky − bk2 = kzk22 + bT z.
T 2
y∈Rm 2 2

应用PDHG算法, xk+1 和zk+1 的更新格式分别为


1
zk+1 = proxδk h∗ (zk + δk Axk ) = zk + δk Axk − δk b ,

δk + 1
xk+1 = proxαk µk·k1 (xk − αk AT zk+1 ).

这里δk , αk 为步长. 31/51


LASSO问题求解
Chambolle-Pock算法格式为
1
zk+1 = zk + δk Ayk − δk b ,

δk + 1
xk+1 = proxαk µk·k1 (xk − αk AT zk+1 ),
yk+1 = 2xk+1 − xk .

10 8
PDHG
Chambolle-Pock
10 6

10 4

10 2

10 0

10 -2

10 -4

10 -6
0 500 1000 1500 2000

32/51
TV-L1 模型
考虑去噪情形下的TV-L1 模型(即A为矩阵空间的恒等算子):

min kUkTV + λkU − Bk1 ,


U∈Rn×n

其中kUkTV 为全变差,即可以用离散的梯度(线性)算
子D : Rn×n → Rn×n×2 表示为
X
kUkTV = k(DU)ij k2 .
1≤i,j≤n

对任意的W, V ∈ Rn×n×2 ,记
X X
kWk = kwij k2 , hW, Vi = wi,j,k vi,j,k ,
1≤i,j≤n 1≤i,j≤n,1≤k≤2

其中wij ∈ R2 且k · k定义了Rn×n×2 上的一种范数.利用k · k的定义,有

kUkTV = kDUk.
33/51
TV-L1 模型
我们取D 为相应的线性算子,并取

f (U) = λkU − Bk1 , U ∈ Rn×n , h(W) = kWk, W ∈ Rn×n×2 .

相应的鞍点问题(1) 如下:

(LPD ) min max f (U) − h∗ (V) + hV, DUi .


U∈Rn×n V∈Rn×n×2

根据共轭函数的定义,

0, max kvij k2 ≤ 1,
h∗ (V) = sup {hU, Vi − kUk} = i,j
U∈Rn×n×2 +∞, 其他.

记V = {V ∈ Rn×n×2 : max kvij k2 ≤ 1},其示性函数记为IV (V),则问


ij
题(LPD )可以整理为

min max f (U) + hV, DUi − IV (V).


U V
34/51
TV-L1 模型

应用PDHG算法,则V k+1 的更新为

V k+1 = proxsIV (V k + sDU k ) = PV (V k + sDU k ), (3)

即V k + sDU k 在V上的投影,而U k+1 的更新如下:

U k+1 = proxtf (U k + tGV k+1 )


 

k+1 1 k 2
= argmin λkU − Bk1 + V , DU + kU − U kF
U 2t

其中G : Rn×n×2 → Rn×n 为离散的散度算子,其满足

hV, DUi = − hGV, Ui , ∀ U ∈ Rn×n , V ∈ Rn×n×2 .

若应用Chambolle-Pock算法,那么U k+1 的更新保持不变,仅需调


整V k+1 的更新为V k + sD(2U k+1 − U k )在V上的投影.

35/51
图像填充模型
考虑问题
λ
min kUkTV + kU − Bk2F .
U∈Rn×n 2
类似于上一个例子中的分析,我们取D 为相应的线性算子,并取
λ
f (U) = kU − Bk2F , U ∈ Rn×n , h(W) = kWk, W ∈ Rn×n×2 .
2
一般的鞍点问题叙述如下:
(LPD ) min max f (U) + hV, DUi − IV (V),
U V

其中V 与TV-L1 模型中的定义一致.应用PDHG算法,则V k+1 的更新


为(3) 式.引入离散的散度算子G,U k+1 的更新如下:
U k+1 = proxtf (U k + tGV k+1 )
 
λ 2

k+1 1 k 2
= argmin kU − BkF + V , DU + kU − U kF .
U 2 2t

同样地,Chambolle-Pock算法的更新表达式也可类似地推出. 36/51
图像反卷积模型

考虑问题
λ
min kUkTV + kAU − Bk2F ,
U∈Rn×n 2
其中AU = KA ∗ U为卷积算子,且KA 是A的卷积核对应的矩阵.
类似于TV-L1 模型中的分析,取D为相应的线性算子,并取
λ
f (U) = kAU − Bk2F , U ∈ Rn×n , h(W) = kWk, W ∈ Rn×n×2 .
2
类似地,一般的鞍点问题叙述如下:

(LPD ) min max f (U) + hV, DUi − IV (V),


U V

其中V 与TV-L1 模型中的定义一致.

37/51
图像反卷积模型

应用PDHG算法,则V k+1 的更新仍为(3) 式,而U k+1 的更新为:

U k+1 = proxtf (U k + tGV k+1 )


 
λ 2 1 k k+1 2
= argmin kAU − BkF + kU − (U + tGV )kF ,
U 2 2t

其中G 为离散的散度算子.可知U k+1 满足如下方程:


1
λA∗ (AU k+1 − B) + (U k+1 − (U k + tGV k+1 )) = 0,
t
其中A∗ 是A的共轭算子,且其卷积核对应的矩阵为KA∗ .由
于AU = KA ∗ U 具有卷积的形式,我们可以利用快速傅里叶变换F 和
其逆变换F −1 来快速求解上面的线性方程组.

38/51
图像反卷积模型

根据

F(AU) = F(KA ∗ U) = F(KA ) F(U),


其中 表示逐分量相乘, 我们有
 
F(KA∗ ) F(KA ) F(U k+1 ) − F(B) +
1
F(U k+1 − (U k + tGV k+1 )) = 0.

利用关系式F(KA∗ ) = F(KA ),可得U k+1 的显式表达式


!
k+1 −1 F(U k + tGV k+1 ) + tλF(B) F(KA )
U =F ,
1 + tλ|F(KA )|2

以上表达式中除F, F −1 , G外,其余均为逐分量的运算
39/51
三项函数拆分例子

Fused Lasso:
1
min kAx − bk2 + µ1 kBxk1 + µ2 kxk1
x 2

即f1 (x) = 21 kAx − bk2 ,f2 = µ1 k · k1 ,f3 = µ2 k · k1 。

图像恢复:
1
min kAx − bk2 + µkDxk1
x∈C 2

即f1 (x) = 12 kAx − bk2 ,f2 = µk · k1 ,f3 = 1C (·). 在医学核共振图像


重建问题中,A = (AT1 , ..., ATN ),其中Aj 由一个对角下采样算子D,
傅里叶变换F,对角的圈灵敏度映射Sj 构成,即Aj = DFSj ,通
常Sj 是事先估计好的。

40/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

41/51
Chambolle-Pock 算法的收敛性

设X, Z分别为变量x, z的取值空间,若点(x̂, ẑ)满足

ψPD (x, ẑ) ≥ ψPD (x̂, ẑ) ≥ ψPD (x̂, z), ∀ x ∈ X, z ∈ Z,

鞍点,其中ψPD 的定义见该问题.
称(x̂, ẑ)是问题(1)的一个鞍

对任意子集B1 × B2 ⊂ X × Z,定义部
部分 原 始 – 对 偶 间 隙 为

GB1 ×B2 (x, z) = max


0
ψPD (x, z0 ) − min
0
ψPD (x0 , z).
z ∈B2 x ∈B1

不难验证,只要鞍点(x̂, ẑ) ∈ B1 × B2 ,就有

GB1 ×B2 (x, z) ≥ ψPD (x, ẑ) − ψPD (x̂, z)


= (ψPD (x, ẑ) − ψPD (x̂, ẑ)) + (ψPD (x̂, ẑ) − ψPD (x̂, z)) ≥ 0,

并且在鞍点处GB1 ×B2 (x̂, ẑ) = 0. 此外,容易验证当


点(x̂, ẑ) ∈ int(B1 × B2 )且满足GB1 ×B2 (x̂, ẑ) = 0 时,(x̂, ẑ)是一个鞍点.
42/51
Chambolle-Pock 算法的收敛性
设f , h为闭凸函数,原问题存在鞍点(x̂, ẑ).在Chambolle-Pock迭代格
式中取步长αk = t, δk = s,且满足st < L1 (L = kAk22 ),则序
列{(xk , zk )}具有:
(a) 令常数C ≤ (1 − Lst)−1 . ∀k,(xk , zk )有界,且满足

kxk − x̂k2 kzk − ẑk2


 0
kx − x̂k2 kz0 − ẑk2

+ ≤C + ,
2t 2s 2t 2s
N N
(b) 记xN = 1
xk ,zN = 1
zk ,则对B1 × B2 ⊂ X × Z,有
P P
N N
k=1 k=1

D(B1 , B2 )
GB1 ×B2 (xN , zN ) ≤ , (4)
N
n o
kx−x0 k2 kz−z0 k2
其中D(B1 , B2 ) = sup(x,z)∈B1 ×B2 2t + 2s ;
N=1 的聚点为问题(1)的一个鞍点;
进一步地,序列{(xN , zN )}∞
(c) 存在问题(1)一个鞍点(x∗ , z∗ )使得xk → x∗ , zk → z∗ .
43/51
收敛性分析
为了方便推导,首先考虑算法的一般格式:
zk+1 =proxsh∗ (zk + sAx̄),
xk+1 =proxtf (xk − tAT z̄).
这里和Chambolle-Pock算法不同的是,我们使用x̄, z̄来表示更新x, z时
的参考点.当它们取特定值时,以上格式可以为PDHG 算法
或Chambolle-Pock 算法.根据邻近算子的性质,
xk − xk+1
−AT z̄ + ∈ ∂f (xk+1 ),
t
zk − zk+1
Ax̄ + ∈ ∂h∗ (zk+1 ).
s
根据次梯度的定义,对于任意的(x, z) ∈ X × Z有
1
f (x) ≥f (xk+1 ) + (x − xk+1 )T (xk − xk+1 ) − (x − xk+1 )T AT z̄,
t
1
h∗ (z) ≥h∗ (zk+1 ) + (z − zk+1 )T (zk − zk+1 ) + (z − zk+1 )T Ax̄.
s
44/51
收敛性分析
将上述两个不等式相加,并引入二次项可整理得到
kx − xk k2 kz − zk k2 kx − xk+1 k2 kz − zk+1 k2
+ − −
 2t 2s 2t  2s
≥ f (xk+1 ) − h∗ (z) + (xk+1 )T AT z − f (x) − h∗ (zk+1 ) + xT AT zk+1

(5)
kxk − xk+1 k2 kzk − zk+1 k2
+ +
2t 2s
+ (xk+1 − x̄)T AT (zk+1 − z) − (xk+1 − x)T AT (zk+1 − z̄).

将Chambolle-Pock格式代入(5) ,即取x̄ = 2xk − xk−1 , z̄ = zk+1 ,那么


(xk+1 − x̄)T AT (zk+1 − z) − (xk+1 − x)T AT (zk+1 − z̄)
=(xk+1 − xk − (xk − xk−1 ))T AT (zk+1 − z)
=(xk+1 − xk )T AT (zk+1 − z) − (xk − xk−1 )T AT (zk − z)
(6)
− (xk − xk−1 )T AT (zk+1 − zk )
≥(xk+1 − xk )T AT (zk+1 − z) − (xk − xk−1 )T AT (zk − z)

− Lkxk − xk−1 kkzk+1 − zk k,

应用柯西不等式即得到最后的不等号 45/51
收敛性分析
2
又利用2ab ≤ αa2 + bα 对任意的α > 0均成立,有

Lkxk − xk−1 kkzk+1 − zk k
√ √
Lαt k k−1 2 Ls k+1
≤ kx − x k + kz − zk k2 ,
2t 2αs
取α = st ,则
p
√ √ s √
Lαt = L = Lst < 1,
α
从而合并(5) 式和(6) 式得到,对于任意的(x, z) ∈ X × Z,

kx − xk k2 kz − zk k2 kx − xk+1 k2 kz − zk+1 k2
+ − −
2t 2s 2t 2s
∗ ∗ k+1
≥ f (x ) − h (z) + (x ) A z − f (x) − h (z ) + xT AT zk+1
k+1 T T
 k+1   
(7)
√ kzk − zk+1 k2 kxk − xk+1 k2 √ kxk−1 − xk k2
+ (1 − Lst) + − Lst
2s 2t 2t
+ (xk+1 − xk )T AT (zk+1 − z) − (xk − xk−1 )T AT (zk − z).
46/51
收敛性分析
将上述不等式中的k从0遍历至N − 1并求和,消掉不等式两边共同项后

N
X
f (x ) − h∗ (z) + (xk )T AT z − f (x) − h∗ (zk ) + xT AT zk
 k   

k=1
N
kx − xN k2 kz − zN k2 √ X kzk − zk−1 k2
+ + + (1 − Lst)
2t 2s 2s
k=1 (8)
N−1
√ X kxk − xk−1 k2 kxN − xN−1 k2
+ (1 − Lst) +
2t 2t
k=1
kx − x0 k2 kz − z0 k2
≤ + + (xN − xN−1 )T AT (zN − z),
2t 2s
b2
其中约定x−1 = x0 .再一次应用柯西不等式,以及2ab ≤ αa2 + α 对任
意的α > 0均成立,可以得到

(xN − xN−1 )T AT (zN − z) ≤ kxN − xN−1 k( LkzN − zk)
kxN − xN−1 k2 Lstkz − zN k2
≤ + .
2t 2s 47/51
收敛性分析
不等式(8)可进一步整理为
N
X
f (x ) − h∗ (z) + (xk )T AT z − f (x) − h∗ (zk ) + xT AT zk
 k   

k=1
N
kx − xN k2 kz − zN k2 √ X kzk − zk−1 k2
+ + (1 − Lst) + (1 − Lst)
2t 2s 2s
k=1 (9)
N−1
√ X kxk − xk−1 k2
+ (1 − Lst)
2t
k=1
kx − x 0 k2 kz − z0 k2
≤ + .
2t 2s
若取(x, z) = (x̂, ẑ),则由鞍点性质可知

[f (xk ) − h∗ (ẑ) + (xk )T AT ẑ] − [f (x̂) − h∗ (zk ) + x̂T AT zk ] ≥ 0.

进而(9)左边每一项都是正的,结论(a)成立. 48/51
收敛性分析
从(9)出发,利用f , h∗ 的凸性,以及xN , zN 的定义,有

f (xN ) − h∗ (z) + (xN )T AT z − f (x) − h∗ (zN ) + xT AT zN


   

N
1 X  k
f (x ) − h∗ (z) + (xk )T AT z − f (x) − h∗ (zk ) + xT AT zk
  

N (10)
k=1
1 kx − x0 k2 kz − z0 k2
 
≤ + .
N 2t 2s

从而结论(b)中(4)式成立.由(1) 知{(xk , zk )}是有界序列,因此其均值


列{(xN , zN )}也为有界序列.记(x] , z] )为序列{(xN , zN )}的聚点,利
用f , h∗ 的凸性以及闭性(下半连续性),对(10) 式左右同时取下极
限,可知对任意的(x, z) ∈ X × Z,
h i h i
f (x] ) − h∗ (z) + (x] )T AT z − f (x) − h∗ (z] ) + xT AT z] ≤ 0.

从而(x] , z] )也是问题(1)的一个鞍点.
49/51
收敛性分析
为了证明{(xk , zk )}全序列收敛到问题(1)的鞍点,我们采用的大致思路
为:先说明其子列收敛,然后再利用(7) 式估计序列中其他点到子列极
限点的误差(进而证明全序列收敛),最后说明该极限点是鞍点.根
据结论(1),{(xk , zk )}是有界点列,因此存在子列{(xkl , zkl )}收敛
于(x∗ , z∗ ).在(7) 式中令(x, z) = (x∗ , z∗ ),并将k从kl 取至N − 1, N > kl 并
求和,有
kx∗ − xN k2 kz∗ − zN k2
+
2t 2s
N
√ X kzk − zk−1 k2 kxkl − xkl −1 k2
+ (1 − Lst) −
2s 2t
k=kl +1
N−1
√ X kxk − xk−1 k2 kxN − xN−1 k2
+ (1 − Lst) +
2t 2t
k=kl
N
+ (x − x N−1 T T
) A (zN − z∗ ) − (xkl − xkl −1 )T AT (zkl − z∗ )
kx∗ − xkl k2 kz∗ − zkl k2
≤ + .
2t 2s 50/51
收敛性分析

去掉上式中不等式左边的求和项(正项),我们有如下估计:

kx∗ − xN k2 kz∗ − zN k2
+
2t 2s
kx∗ − xkl k2 kz∗ − zkl k2 kxkl − xkl −1 k2 kxN − xN−1 k2
≤ + + −
2t 2s 2t 2t
+ (xkl − xkl −1 )T AT (zkl − z∗ ) − (xN − xN−1 )T AT (zN − z∗ ).

注意到
xkl → x∗ , (xkl 的定义)
xN − xN−1 → 0, (由(9) 式推出)
{zk }有界, (本定理中(a) 的结论)
所以当N → ∞时有,xN → x∗ , zN → z∗ ,全序列收敛性得证.最后,
由全序列收敛可知均值(xN , zN )也收敛到(x∗ , z∗ ),根据(a) 的结论和极限
的唯一性立即得到(x] , z] ) = (x∗ , z∗ ),即收敛到问题(1)的一个鞍点
51/51

You might also like