0% found this document useful (0 votes)

50 views

23 Lect DualAlgo

The document discusses the dual approximate gradient method for solving optimization problems. It introduces the dual problem formulation and explains how to apply gradient ascent to solve the dual problem. The dual approximate gradient method approximates the dual objective function as the sum of a gradient Lipschitz continuous function and another term with a simple proximal operator. This allows applying the proximal gradient method to solve the dual problem in an alternating minimization framework.

Uploaded by

zhongyu xia

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

50 views

23 Lect DualAlgo

Uploaded by

zhongyu xia

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 51

对偶算法

文再文
北京大学北京国际数学研究中心
教材《最优化：建模、算法与理论》配套电子教案
http://bicmr.pku.edu.cn/~wenzw/optbook.html

致谢：本教案由朱桢源协助准备

1/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

2/51
对偶方法
次梯度法：速度慢，步长选择困难
梯度法：需要对偶函数可微

对偶函数可能不可微，或定义域非平凡

对原始函数加小的强凸项，将对偶函数光滑化

增广拉格朗日法：

等价于对光滑化的对偶问题做梯度上升

但是光滑化会破坏可分结构

近似点梯度法（本讲）：对偶函数分裂成两项

一项是梯度利普希茨连续函数

另一项有方便计算的近似点算子
3/51
对偶问题

设f ，h 是闭凸函数，考虑如下形式的问题:

(P) min ψ(x) = f (x) + h(Ax).

x∈Rn

引入新变量y = Ax，考虑问题:

(P) min ψ(x) = f (x) + h(y), s.t. Ax = y.

x∈Rn

拉格朗日函数为:

L(x, y, z) = f (x) + g(y) + zT (Ax − y)

对偶问题

(D) max φ(z) = −f ∗ (−AT z) − h∗ (z).

4/51
Dual methods

apply first-order method to dual problem

max −f ∗ (−AT z) − h∗ (z)

reasons why dual problem may be easier for first-order method:

dual problem is unconstrained or has simple constraints

dual objective is differentiable or has a simple nondifferentiable

term

decomposition: exploit separable structure

5/51
(Sub-)gradients of conjugate function

assume f : Rn → R is closed and convex with conjugate

f ∗ (y) = sup(yT x − f (x))

subgradient
f ∗ is subdifferentiable on (at least) int dom f ∗
maximizers in the definition of f ∗ (y) are subgradients at y

y ∈ ∂f (x) ⇔ yT x − f (x) = f ∗ (y) ⇔ x ∈ ∂f ∗ (y)

gradient: for strictly convex f , maximizer in definition is unique if it

exists

∇f ∗ (y) = argmax(yT x − f (x)) (if maximum is attained)

6/51
Equality constraints

min f (x) min f ∗ (−AT z) + bT z

s.t. Ax = b
dual gradient ascent (assuming dom f ∗ = Rn ):

x̂ = argmin(f (x) + zT Ax), z+ = z + t(Ax̂ − b)

x̂ is a subgradient of f ∗ at −AT z ( i.e., x̂ ∈ ∂f ∗ (−AT z))

b − Ax̂ is a subgradient of f ∗ (−AT z) + bT z at z
of interest if calculation of x̂ is inexpensive (for example, f is
separable)

7/51
Alternating minimization framework
The Lagrangian function is

L(x, z) = f (x) + z> (Ax − b).

The problem is equivalent to

max min L(x, z).

z x

The dual gradient ascent method is equivalent to the following

alternating minimization scheme:

xk+1 = argmin L(x, zk )

x
= argmin(f (x) + (zk )T Ax)
x
1
zk+1 = argmax L(xk+1 , z) − kz − zk k22
z 2t
= z + t(Axk+1 − b)
k

8/51
Dual decomposition

convex problem with separable objective

min f1 (x1 ) + f2 (x2 )

s.t. A1 x1 + A2 x2 ≤ b

constraint is complicating or coupling constraint

dual problem

max −f1∗ (−AT1 z) − f2∗ (−AT2 z) − bT z

s.t. z ≥ 0

can be solved by (sub-)gradient projection if z ≥ 0 is the only

constraint

9/51
Dual subgradient projection

subproblems: to calculate fj∗ (−ATj z) and a (sub-) gradient for it,

min (over xj ) fj (xj ) + zT Aj xj

optimal value is fj∗ (−ATj z); minimizer x̂j is in ∂fj∗ (−ATj z)

dual subgradient projection method

x̂j = argmin(fj (xj ) + zT Aj xj ), j = 1, 2

xj
+
z = (z + t(A1 x̂1 + A2 x̂2 − b))+

minimization problems over x1 , x2 are independent

z-update is projected subgradient step (u+ = max{u, 0}
elementwise)
10/51
强凸函数共轭函数的性质
设f (x)是适当且闭的强凸函数，强凸参数为µ > 0，则f ∗ (y)在全空
间Rn 上有定义，f ∗ (y)是梯度 µ1 -利普希茨连续的可微函数．
证明：
对任意的y ∈ Rn ，f (x) − xT y是强凸函数，因此对任意的y ∈ Rn ，
存在唯一的x ∈ dom f ，使得f ∗ (y) = xT y − f (x)．根据最优性条件

y ∈ ∂f (x) ⇔ f ∗ (y) = xT y − f (x).

由于f (x)是闭凸函数，二次共轭为其本身，于是对同一组x, y有

xT y − f ∗ (y) = f (x) = f ∗∗ (x) = sup xT y − f ∗ (y) .

这说明y也使得xT y − f ∗ (y)取到最大值．根据一阶最优性条件，

x ∈ ∂f ∗ (y).

再根据x的唯一性容易推出∂f ∗ (y)中只含一个元素，故f ∗ (y)可微．

11/51
下证f ∗ (y)为梯度 µ1 -利普希茨连续的．对任意的y1 , y2 ，存在唯一
的x1 , x2 ∈ dom f 使得

y1 ∈ ∂f (x1 ), y2 ∈ ∂f (x2 ).

根据次梯度性质以及f (x) − µ2 kxk2 是凸函数，

f (x2 ) ≥ f (x1 ) + (y1 − µx1 )T (x2 − x1 ),

f (x1 ) ≥ f (x2 ) + (y2 − µx2 )T (x1 − x2 ),

将上述两式相加得

(y1 − y2 )T (x1 − x2 ) ≥ µkx1 − x2 k2 .

根据x和y的关系我们有x1 = ∇f ∗ (y1 ), x2 = ∇f ∗ (y2 )，代入上式可得

(y1 − y2 )T (∇f ∗ (y1 ) − ∇f ∗ (y2 )) ≥ µk∇f ∗ (y1 ) − ∇f ∗ (y2 )k2 .

这正是∇f ∗ (y)的余强制性，可知∇f ∗ (y)是 µ1 -利普希茨连续的．

12/51
对偶问题中的复合结构

为了在对偶问题上使用近似点梯度法，φ(z) 需要满足“可微函数+ 凸函
数” 的复合形式：

h 或h∗ 的近似点算子容易计算（有闭形式或简单算法）

f 是闭的强凸函数
我们下面证明这意味着f ∗ (−AT z) 是梯度利普希茨连续函数：

kAk22
kA∇f ∗ (−AT z1 ) − A∇f ∗ (−AT z2 )k2 ≤ kz1 − z2 k2
µ

13/51
对偶近似点梯度更新

考虑在对偶问题上应用近似点梯度算法，每次迭代更新如下：

zk+1 = proxth∗ zk +tA∇f ∗ −AT zk

对偶问题是取最大值，因此邻近算子内部应该取上升方向.
进一步引入变量xk+1 = ∇f ∗ (−AT zk )，迭代格式等价于
n T o
xk+1 = arg min f (x) + AT zk x , zk+1 = proxth∗ zk + tAxk+1

x

如果f 可分, x 的计算可分解为多个独立的问题

步长t 可取常数或采取回溯线搜索法

可使用加速近似点梯度法

下面我们将提供另一种角度来理解对偶近似点梯度法．
14/51
Moreau 分解

设f 是定义在Rn 上的适当的闭凸函数，则对任意的x ∈ Rn ，

x = proxf (x) + proxf ∗ (x);

或更一般地，
x
x = proxλf (x) + λproxλ−1 f ∗ ,
λ
其中λ > 0为任意正实数．

Moreau 分解的结论表明：对任意的闭凸函数f ，空间Rn 上的恒等

映射总可以分解成两个函数f 与f ∗ 邻近算子的和．

15/51
交替极小的解释

取λ = t, f = h∗ ，并注意到h∗∗ = h，我们有

zk

k k+1 k k+1
z + tAx = proxth∗ (z + tAx ) + tproxt−1 h + Axk+1
t
zk
= zk+1 + tproxt−1 h ( + Axk+1 ),
t
由此给出对偶近似点梯度法等价的针对原始问题的更新格式：

xk+1 = argmin f (x) + (zk )T Ax ,

x
k
k+1 z k+1
y = proxt−1 h + Ax
t
n t o
= argmin h(y) − (zk )T (y − Axk+1 ) + kAxk+1 − yk22 ,
y 2
zk+1 = zk + t(Axk+1 − yk+1 ).

16/51
交替极小方法
考虑等价问题:

min f (x) + h(y), s.t. y = Ax

x,y

定义拉格朗日函数和增广拉格朗日函数:
L(x, y, z) = f (x) + h(y) − zT (y − Ax)
t
Lt (x, y, z) = f (x) + h(y) − zT (y − Ax) + ky − Axk2
2
等价的交替极小格式是

xk+1 = arg min L(x, yk , zk )

x
yk+1 = arg min Lt (xk+1 , y, zk )
y
k+1
z = z + t(Axk+1 − yk+1 )
k

对偶近似点梯度法等价于对原始约束问题使用交替极小化方法
17/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

18/51
正则化范数近似
假设f 是强凸函数，k · k是任意一种范数，考虑

min f (x) + kAx − bk

对应原始问题我们有h(y) = ky − bk
(
bT z kzk∗ ≤ 1
h∗ (z) = proxth∗ (x) = Pkzk∗ ≤1 (x − tb)
+∞ 其他

其中k · k∗ 表示k · k的对偶范数. 从而对偶问题为：

max −f ∗ (−AT z) − bT z
kzk∗ ≤1

应用对偶近似点梯度法，更新如下：
xk+1 = argmin f (x) + (AT zk )T x

x
k+1
z = Pkzk∗ ≤1 (zk + t(Axk+1 − b))
19/51
正则化范数近似

考虑等价问题
min f (x) + kyk, s.t. Ax − b = y
x,y

交替极小化格式是

xk+1 = argmin f (x) + kyk k + (zk )T (Ax − b − yk )

x
t
yk+1
= argmin f (xk+1 ) + kyk + (zk )T (Axk+1 − b − y) + kAxk+1 − b − yk22
y 2
zk+1 = zk + t(Axk+1 − b − yk+1 )

20/51
例
假设f 是强凸函数，考虑
p
X
min f (x) + kBi xk2 ,
i=1
p
即h(y1 , y2 , · · · , yp ) = kyi k2 ，且
P
i=1
T
A = BT1 BT1 · · · BTp .

根据k · k2 的共轭函数定义，对偶问题形式如下：
p
!
X
∗ T
max −f − Bi zi ,
kzi k2 ≤1
i=1

记Ci 是Rmi 中的单位欧几里得球，对偶近似点梯度法更新如下：

p
( )
X
xk+1 = argmin f (x) + ( BTi zi )T x ,
x
i=1
zk+1
i = PCi (zki + tBi x k+1
), i = 1, 2, · · · , p. 21/51
数值实验

1
f (x) = ||Cx − d||22
2
随机生成C ∈ R2000×1000 , Bi ∈ R10×1000 , p = 500

100
gradient
FISTA
-1
10
f ⋆ − dual objective

10-2

10-3
f⋆

10-4

10-5

10-6 0 100 200 300 400 500 600 700 800 900
k

22/51
在凸集交上的极小化
假设f 是强凸函数，集合Ci 为闭凸集，且易于计算投影，考虑
min f (x),
s.t. x ∈ C1 ∩ C2 ∩ · · · ∩ Cm ,
m T
我们有h(y1 , y2 , · · · , ym ) = ICi (yi )，A = I I · · · I , 对偶问题为
P
i=1
m
! m
X X
max −f ∗ − zi − IC∗ i (zi ),
zi ∈Ci
i=1 i=1

IC∗ i (zi )是集合Ci 的支撑函数，其显式表达式不易求出．因此我们利

用Moreau 分解将迭代格式写成交替极小化方法的形式：
 !T 
 m
X 
xk+1 = argmin f (x) + zi x ,
x  
i=1

zki

yk+1
i = PCi + xk+1 , i = 1, 2, · · · , m,
t
zk+1
i = zki + t(xk+1 − yk+1
i ), i = 1, 2, · · · , m.
23/51
可分问题的拆分
假设fi 是强凸函数，h∗i 有易于计算的邻近算子．考虑
n
X m
X
min fj (xj ) + hi (Ai1 x1 + Ai2 x2 + · · · + Ain xN ),
j=1 i=1

其对偶问题形式如下：
m
X n
X
max − h∗i (zi ) − fj∗ (−AT1j z1 − AT2j z2 − · · · − ATmj zm ).
i=1 j=1

对偶近似点梯度法更新如下：
( m
)
X
xjk+1 = argmin fj (xj ) + ( Aij zki )T xj , j = 1, 2, · · · , n,
xj
i=1
 
n
X
zk+1
i =proxth∗i zi + t Aij xjk+1  , i = 1, 2, · · · , m.
j=1
24/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

25/51
鞍点问题
令f , h是适当的闭凸函数. 考虑原始问题：

min f (x) + h(Ax),

由于h有自共轭性，我们将问题变形为
def
(LPD ) min max ψPD (x, z) == f (x) − h∗ (z) + zT Ax. (1)
x z

可以看到此时问题变成了一个极小– 极大问题，即关于变量x求极
小，关于变量z求极大，这是一个典型的鞍点问题．
另一种常用的鞍点问题定义方式构造拉格朗日函数．问题

min f (x) + h(y), s.t. y = Ax.

x∈Rn ,y∈Rm

相应的鞍点问题形式如下：

(LP ) min max f (x) + h(y) + zT (Ax − y). (2)

x,y z
26/51
PDHG 算法
PDHG 算法的思想就是分别对两类变量应用近似点梯度算法．

以求解问题(1) 为例，PDHG 算法交替更新原始变量以及对偶变

量，其迭代格式如下：

k+1 ∗

k k
1 k 2
z = argmax −h (z) + Ax , z − z − kz − z k2
z 2δk
= proxδk h∗ (zk + δk Axk ),

k+1 T 1 k 2
xk+1 k
= argmin f (x) + (z ) A(x − x ) + kx − x k2
x 2αk
= proxαk f (xk − αk AT zk+1 ),

其中αk , δk 分别为原始变量和对偶变量的更新步长．

它在第一步固定原始变量xk 针对对偶变量做梯度上升，在第二步
固定更新后的对偶变量zk+1 针对原始变量做梯度下降．在这里注
意，原始变量和对偶变量的更新顺序是无关紧要的，若先更新原
始变量，其等价于在另一初值下先更新对偶变量．
27/51
Chambolle-Pock算法

PDHG 算法的收敛性需要比较强的条件，有些情形下未必收敛．

Chambolle-Pock算法与PDHG 算法的区别在于多了一个外推步

具体的迭代格式如下：

zk+1 = proxδk h∗ (zk + δk Ayk ),

xk+1 = proxαk f (xk − αk AT zk+1 ),
yk+1 = 2xk+1 − xk .

28/51
三项函数拆分

考虑
min f1 (x) + f2 (Bx) + f3 (x),
x

其中f1 , f2 , f3 是三个下半连续的凸函数，且f1 具有Lipschitz连续常

数 β1 ，β ∈ [0, ∞)，B ∈ Rm×n 。
Saddle point 问题形式：

min max f1 (x) + hz, Bxi − f2∗ (z) + f3 (x)

x z

PDFP算法更新如下：
 T
yk+1 = proxγf3 (xk − γ∇f1 (xk ) − λB zk ),

zk+1 = (I − prox γ f2 )(Byk+1 + zk ),
 λ
xk+1 = proxγf3 (xk − γ∇f1 (xk ) − λBT zk+1 ).


其中0 < λ < 1

λmax (BBT )
，0 < γ < 2β。
29/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

30/51
LASSO问题求解
考虑LASSO问题
def 1
minn ψ(x) == µkxk1 + kAx − bk22 .
x∈R 2
取f (x) = µkxk1 和h(x) = 12 kx − bk22 ，相应的鞍点问题：
min max f (x) − h∗ (z) + zT Ax.
x∈Rn z∈Rm

根据共轭函数的定义，

∗ 1 1
h (z) = sup y z − ky − bk2 = kzk22 + bT z.
T 2
y∈Rm 2 2

应用PDHG算法, xk+1 和zk+1 的更新格式分别为

1
zk+1 = proxδk h∗ (zk + δk Axk ) = zk + δk Axk − δk b ,

δk + 1
xk+1 = proxαk µk·k1 (xk − αk AT zk+1 ).

这里δk , αk 为步长． 31/51

LASSO问题求解
Chambolle-Pock算法格式为
1
zk+1 = zk + δk Ayk − δk b ,

δk + 1
xk+1 = proxαk µk·k1 (xk − αk AT zk+1 ),
yk+1 = 2xk+1 − xk .

10 8
PDHG
Chambolle-Pock
10 6

10 4

10 2

10 0

10 -2

10 -4

10 -6
0 500 1000 1500 2000

32/51
TV-L1 模型
考虑去噪情形下的TV-L1 模型（即A为矩阵空间的恒等算子）:

min kUkTV + λkU − Bk1 ,

U∈Rn×n

其中kUkTV 为全变差，即可以用离散的梯度（线性）算
子D : Rn×n → Rn×n×2 表示为
X
kUkTV = k(DU)ij k2 .
1≤i,j≤n

对任意的W, V ∈ Rn×n×2 ，记
X X
kWk = kwij k2 , hW, Vi = wi,j,k vi,j,k ,
1≤i,j≤n 1≤i,j≤n,1≤k≤2

其中wij ∈ R2 且k · k定义了Rn×n×2 上的一种范数．利用k · k的定义，有

kUkTV = kDUk.
33/51
TV-L1 模型
我们取D 为相应的线性算子，并取

f (U) = λkU − Bk1 , U ∈ Rn×n , h(W) = kWk, W ∈ Rn×n×2 .

相应的鞍点问题(1) 如下：

(LPD ) min max f (U) − h∗ (V) + hV, DUi .

U∈Rn×n V∈Rn×n×2

根据共轭函数的定义，

0, max kvij k2 ≤ 1,
h∗ (V) = sup {hU, Vi − kUk} = i,j
U∈Rn×n×2 +∞, 其他.

记V = {V ∈ Rn×n×2 : max kvij k2 ≤ 1}，其示性函数记为IV (V)，则问

ij
题(LPD )可以整理为

min max f (U) + hV, DUi − IV (V).

U V
34/51
TV-L1 模型

应用PDHG算法，则V k+1 的更新为

V k+1 = proxsIV (V k + sDU k ) = PV (V k + sDU k ), (3)

即V k + sDU k 在V上的投影，而U k+1 的更新如下：

U k+1 = proxtf (U k + tGV k+1 )

k+1 1 k 2
= argmin λkU − Bk1 + V , DU + kU − U kF
U 2t

其中G : Rn×n×2 → Rn×n 为离散的散度算子，其满足

hV, DUi = − hGV, Ui , ∀ U ∈ Rn×n , V ∈ Rn×n×2 .

若应用Chambolle-Pock算法，那么U k+1 的更新保持不变，仅需调

整V k+1 的更新为V k + sD(2U k+1 − U k )在V上的投影．

35/51
图像填充模型
考虑问题
λ
min kUkTV + kU − Bk2F .
U∈Rn×n 2
类似于上一个例子中的分析，我们取D 为相应的线性算子，并取
λ
f (U) = kU − Bk2F , U ∈ Rn×n , h(W) = kWk, W ∈ Rn×n×2 .
2
一般的鞍点问题叙述如下：
(LPD ) min max f (U) + hV, DUi − IV (V),
U V

其中V 与TV-L1 模型中的定义一致．应用PDHG算法，则V k+1 的更新

为(3) 式．引入离散的散度算子G，U k+1 的更新如下：
U k+1 = proxtf (U k + tGV k+1 )

λ 2

k+1 1 k 2
= argmin kU − BkF + V , DU + kU − U kF .
U 2 2t

同样地，Chambolle-Pock算法的更新表达式也可类似地推出． 36/51
图像反卷积模型

考虑问题
λ
min kUkTV + kAU − Bk2F ,
U∈Rn×n 2
其中AU = KA ∗ U为卷积算子，且KA 是A的卷积核对应的矩阵．
类似于TV-L1 模型中的分析，取D为相应的线性算子，并取
λ
f (U) = kAU − Bk2F , U ∈ Rn×n , h(W) = kWk, W ∈ Rn×n×2 .
2
类似地，一般的鞍点问题叙述如下：

(LPD ) min max f (U) + hV, DUi − IV (V),

U V

其中V 与TV-L1 模型中的定义一致．

37/51
图像反卷积模型

应用PDHG算法，则V k+1 的更新仍为(3) 式，而U k+1 的更新为：

U k+1 = proxtf (U k + tGV k+1 )

λ 2 1 k k+1 2
= argmin kAU − BkF + kU − (U + tGV )kF ,
U 2 2t

其中G 为离散的散度算子．可知U k+1 满足如下方程：

1
λA∗ (AU k+1 − B) + (U k+1 − (U k + tGV k+1 )) = 0,
t
其中A∗ 是A的共轭算子，且其卷积核对应的矩阵为KA∗ ．由
于AU = KA ∗ U 具有卷积的形式，我们可以利用快速傅里叶变换F 和
其逆变换F −1 来快速求解上面的线性方程组．

38/51
图像反卷积模型

根据

F(AU) = F(KA ∗ U) = F(KA ) F(U),

其中表示逐分量相乘, 我们有

F(KA∗ ) F(KA ) F(U k+1 ) − F(B) +
1
F(U k+1 − (U k + tGV k+1 )) = 0.
tλ

利用关系式F(KA∗ ) = F(KA )，可得U k+1 的显式表达式

!
k+1 −1 F(U k + tGV k+1 ) + tλF(B) F(KA )
U =F ,
1 + tλ|F(KA )|2

以上表达式中除F, F −1 , G外，其余均为逐分量的运算
39/51
三项函数拆分例子

Fused Lasso:
1
min kAx − bk2 + µ1 kBxk1 + µ2 kxk1
x 2

即f1 (x) = 21 kAx − bk2 ，f2 = µ1 k · k1 ，f3 = µ2 k · k1 。

图像恢复：
1
min kAx − bk2 + µkDxk1
x∈C 2

即f1 (x) = 12 kAx − bk2 ，f2 = µk · k1 ，f3 = 1C (·). 在医学核共振图像

重建问题中，A = (AT1 , ..., ATN )，其中Aj 由一个对角下采样算子D，
傅里叶变换F，对角的圈灵敏度映射Sj 构成，即Aj = DFSj ，通
常Sj 是事先估计好的。

40/51
提纲

1 对偶近似点梯度法

2 应用举例

3 原始– 对偶混合梯度算法

4 应用举例

5 收敛性分析

41/51
Chambolle-Pock 算法的收敛性

设X, Z分别为变量x, z的取值空间，若点(x̂, ẑ)满足

ψPD (x, ẑ) ≥ ψPD (x̂, ẑ) ≥ ψPD (x̂, z), ∀ x ∈ X, z ∈ Z,

鞍点，其中ψPD 的定义见该问题．
称(x̂, ẑ)是问题(1)的一个鞍

对任意子集B1 × B2 ⊂ X × Z，定义部
部分原始 – 对偶间隙为

GB1 ×B2 (x, z) = max

0
ψPD (x, z0 ) − min
0
ψPD (x0 , z).
z ∈B2 x ∈B1

不难验证，只要鞍点(x̂, ẑ) ∈ B1 × B2 ，就有

GB1 ×B2 (x, z) ≥ ψPD (x, ẑ) − ψPD (x̂, z)

= (ψPD (x, ẑ) − ψPD (x̂, ẑ)) + (ψPD (x̂, ẑ) − ψPD (x̂, z)) ≥ 0,

并且在鞍点处GB1 ×B2 (x̂, ẑ) = 0. 此外，容易验证当

点(x̂, ẑ) ∈ int(B1 × B2 )且满足GB1 ×B2 (x̂, ẑ) = 0 时，(x̂, ẑ)是一个鞍点．
42/51
Chambolle-Pock 算法的收敛性
设f , h为闭凸函数，原问题存在鞍点(x̂, ẑ)．在Chambolle-Pock迭代格
式中取步长αk = t, δk = s，且满足st < L1 （L = kAk22 ），则序
列{(xk , zk )}具有：
(a) 令常数C ≤ (1 − Lst)−1 . ∀k，(xk , zk )有界，且满足

kxk − x̂k2 kzk − ẑk2

0
kx − x̂k2 kz0 − ẑk2

+ ≤C + ,
2t 2s 2t 2s
N N
(b) 记xN = 1
xk ，zN = 1
zk ，则对B1 × B2 ⊂ X × Z，有
P P
N N
k=1 k=1

D(B1 , B2 )
GB1 ×B2 (xN , zN ) ≤ , (4)
N
n o
kx−x0 k2 kz−z0 k2
其中D(B1 , B2 ) = sup(x,z)∈B1 ×B2 2t + 2s ;
N=1 的聚点为问题(1)的一个鞍点；
进一步地，序列{(xN , zN )}∞
(c) 存在问题(1)一个鞍点(x∗ , z∗ )使得xk → x∗ , zk → z∗ ．
43/51
收敛性分析
为了方便推导，首先考虑算法的一般格式：
zk+1 =proxsh∗ (zk + sAx̄),
xk+1 =proxtf (xk − tAT z̄).
这里和Chambolle-Pock算法不同的是，我们使用x̄, z̄来表示更新x, z时
的参考点．当它们取特定值时，以上格式可以为PDHG 算法
或Chambolle-Pock 算法．根据邻近算子的性质，
xk − xk+1
−AT z̄ + ∈ ∂f (xk+1 ),
t
zk − zk+1
Ax̄ + ∈ ∂h∗ (zk+1 ).
s
根据次梯度的定义，对于任意的(x, z) ∈ X × Z有
1
f (x) ≥f (xk+1 ) + (x − xk+1 )T (xk − xk+1 ) − (x − xk+1 )T AT z̄,
t
1
h∗ (z) ≥h∗ (zk+1 ) + (z − zk+1 )T (zk − zk+1 ) + (z − zk+1 )T Ax̄.
s
44/51
收敛性分析
将上述两个不等式相加，并引入二次项可整理得到
kx − xk k2 kz − zk k2 kx − xk+1 k2 kz − zk+1 k2
+ − −
2t 2s 2t 2s
≥ f (xk+1 ) − h∗ (z) + (xk+1 )T AT z − f (x) − h∗ (zk+1 ) + xT AT zk+1

(5)
kxk − xk+1 k2 kzk − zk+1 k2
+ +
2t 2s
+ (xk+1 − x̄)T AT (zk+1 − z) − (xk+1 − x)T AT (zk+1 − z̄).

将Chambolle-Pock格式代入(5) ，即取x̄ = 2xk − xk−1 , z̄ = zk+1 ，那么

(xk+1 − x̄)T AT (zk+1 − z) − (xk+1 − x)T AT (zk+1 − z̄)
=(xk+1 − xk − (xk − xk−1 ))T AT (zk+1 − z)
=(xk+1 − xk )T AT (zk+1 − z) − (xk − xk−1 )T AT (zk − z)
(6)
− (xk − xk−1 )T AT (zk+1 − zk )
≥(xk+1 − xk )T AT (zk+1 − z) − (xk − xk−1 )T AT (zk − z)
√
− Lkxk − xk−1 kkzk+1 − zk k,

应用柯西不等式即得到最后的不等号 45/51
收敛性分析
2
又利用2ab ≤ αa2 + bα 对任意的α > 0均成立，有
√
Lkxk − xk−1 kkzk+1 − zk k
√ √
Lαt k k−1 2 Ls k+1
≤ kx − x k + kz − zk k2 ,
2t 2αs
取α = st ，则
p
√ √ s √
Lαt = L = Lst < 1,
α
从而合并(5) 式和(6) 式得到，对于任意的(x, z) ∈ X × Z，

kx − xk k2 kz − zk k2 kx − xk+1 k2 kz − zk+1 k2
+ − −
2t 2s 2t 2s
∗ ∗ k+1
≥ f (x ) − h (z) + (x ) A z − f (x) − h (z ) + xT AT zk+1
k+1 T T
k+1
(7)
√ kzk − zk+1 k2 kxk − xk+1 k2 √ kxk−1 − xk k2
+ (1 − Lst) + − Lst
2s 2t 2t
+ (xk+1 − xk )T AT (zk+1 − z) − (xk − xk−1 )T AT (zk − z).
46/51
收敛性分析
将上述不等式中的k从0遍历至N − 1并求和，消掉不等式两边共同项后
有
N
X
f (x ) − h∗ (z) + (xk )T AT z − f (x) − h∗ (zk ) + xT AT zk
k

k=1
N
kx − xN k2 kz − zN k2 √ X kzk − zk−1 k2
+ + + (1 − Lst)
2t 2s 2s
k=1 (8)
N−1
√ X kxk − xk−1 k2 kxN − xN−1 k2
+ (1 − Lst) +
2t 2t
k=1
kx − x0 k2 kz − z0 k2
≤ + + (xN − xN−1 )T AT (zN − z),
2t 2s
b2
其中约定x−1 = x0 ．再一次应用柯西不等式，以及2ab ≤ αa2 + α 对任
意的α > 0均成立，可以得到
√
(xN − xN−1 )T AT (zN − z) ≤ kxN − xN−1 k( LkzN − zk)
kxN − xN−1 k2 Lstkz − zN k2
≤ + .
2t 2s 47/51
收敛性分析
不等式(8)可进一步整理为
N
X
f (x ) − h∗ (z) + (xk )T AT z − f (x) − h∗ (zk ) + xT AT zk
k

k=1
N
kx − xN k2 kz − zN k2 √ X kzk − zk−1 k2
+ + (1 − Lst) + (1 − Lst)
2t 2s 2s
k=1 (9)
N−1
√ X kxk − xk−1 k2
+ (1 − Lst)
2t
k=1
kx − x 0 k2 kz − z0 k2
≤ + .
2t 2s
若取(x, z) = (x̂, ẑ)，则由鞍点性质可知

[f (xk ) − h∗ (ẑ) + (xk )T AT ẑ] − [f (x̂) − h∗ (zk ) + x̂T AT zk ] ≥ 0.

进而(9)左边每一项都是正的，结论(a)成立． 48/51
收敛性分析
从(9)出发，利用f , h∗ 的凸性，以及xN , zN 的定义，有

f (xN ) − h∗ (z) + (xN )T AT z − f (x) − h∗ (zN ) + xT AT zN

N
1 X k
f (x ) − h∗ (z) + (xk )T AT z − f (x) − h∗ (zk ) + xT AT zk

≤
N (10)
k=1
1 kx − x0 k2 kz − z0 k2

≤ + .
N 2t 2s

从而结论(b)中(4)式成立．由(1) 知{(xk , zk )}是有界序列，因此其均值

列{(xN , zN )}也为有界序列．记(x] , z] )为序列{(xN , zN )}的聚点，利
用f , h∗ 的凸性以及闭性（下半连续性），对(10) 式左右同时取下极
限，可知对任意的(x, z) ∈ X × Z，
h i h i
f (x] ) − h∗ (z) + (x] )T AT z − f (x) − h∗ (z] ) + xT AT z] ≤ 0.

从而(x] , z] )也是问题(1)的一个鞍点．
49/51
收敛性分析
为了证明{(xk , zk )}全序列收敛到问题(1)的鞍点，我们采用的大致思路
为：先说明其子列收敛，然后再利用(7) 式估计序列中其他点到子列极
限点的误差（进而证明全序列收敛），最后说明该极限点是鞍点．根
据结论(1)，{(xk , zk )}是有界点列，因此存在子列{(xkl , zkl )}收敛
于(x∗ , z∗ )．在(7) 式中令(x, z) = (x∗ , z∗ )，并将k从kl 取至N − 1, N > kl 并
求和，有
kx∗ − xN k2 kz∗ − zN k2
+
2t 2s
N
√ X kzk − zk−1 k2 kxkl − xkl −1 k2
+ (1 − Lst) −
2s 2t
k=kl +1
N−1
√ X kxk − xk−1 k2 kxN − xN−1 k2
+ (1 − Lst) +
2t 2t
k=kl
N
+ (x − x N−1 T T
) A (zN − z∗ ) − (xkl − xkl −1 )T AT (zkl − z∗ )
kx∗ − xkl k2 kz∗ − zkl k2
≤ + .
2t 2s 50/51
收敛性分析

去掉上式中不等式左边的求和项（正项），我们有如下估计：

kx∗ − xN k2 kz∗ − zN k2
+
2t 2s
kx∗ − xkl k2 kz∗ − zkl k2 kxkl − xkl −1 k2 kxN − xN−1 k2
≤ + + −
2t 2s 2t 2t
+ (xkl − xkl −1 )T AT (zkl − z∗ ) − (xN − xN−1 )T AT (zN − z∗ ).

注意到
xkl → x∗ , （xkl 的定义）
xN − xN−1 → 0, （由(9) 式推出）
{zk }有界, （本定理中(a) 的结论）
所以当N → ∞时有，xN → x∗ , zN → z∗ ，全序列收敛性得证．最后，
由全序列收敛可知均值(xN , zN )也收敛到(x∗ , z∗ )，根据(a) 的结论和极限
的唯一性立即得到(x] , z] ) = (x∗ , z∗ )，即收敛到问题(1)的一个鞍点
51/51

Elementary Calculus
From Everand
Elementary Calculus
George N. Frempong
No ratings yet
數學規劃講義final
No ratings yet
數學規劃講義final
130 pages
GAMES102-suppl-1
No ratings yet
GAMES102-suppl-1
11 pages
微分方程引论习题课讲义
No ratings yet
微分方程引论习题课讲义
199 pages
Hw3sol PDF
No ratings yet
Hw3sol PDF
8 pages
Bank 1985
No ratings yet
Bank 1985
4 pages
Lecture 3: Composite Problem Via Duality: 3.1.1 Motivations
No ratings yet
Lecture 3: Composite Problem Via Duality: 3.1.1 Motivations
5 pages
上机作业第六章
No ratings yet
上机作业第六章
7 pages
Subgradient Methods
No ratings yet
Subgradient Methods
56 pages
Interior Gradient and Proximal Methods For Convex and Conic Optimization
No ratings yet
Interior Gradient and Proximal Methods For Convex and Conic Optimization
29 pages
标准正态分布的简洁闭式
No ratings yet
标准正态分布的简洁闭式
4 pages
偏微分方程简明教程 (浙江大学) (Z-Library)
No ratings yet
偏微分方程简明教程 (浙江大学) (Z-Library)
33 pages
L10_Subgrad_PGD (partially annotated)
No ratings yet
L10_Subgrad_PGD (partially annotated)
39 pages
2.Surface Diffusion方程
No ratings yet
2.Surface Diffusion方程
4 pages
NLP Lab Till Lab 6
No ratings yet
NLP Lab Till Lab 6
11 pages
ASSIGNMENT 1 Math PDF
No ratings yet
ASSIGNMENT 1 Math PDF
40 pages
Fill in The Blanket With Proper Answers (5 Marks Each, Total 40 Marks) 1)
No ratings yet
Fill in The Blanket With Proper Answers (5 Marks Each, Total 40 Marks) 1)
4 pages
C
No ratings yet
C
11 pages
Computational Methods Form
No ratings yet
Computational Methods Form
1 page
Practice Midterm Sol
No ratings yet
Practice Midterm Sol
15 pages
Notes On Adjoint Methods MIT
No ratings yet
Notes On Adjoint Methods MIT
6 pages
Chapter9-Parallel Distributed Algorithm
No ratings yet
Chapter9-Parallel Distributed Algorithm
12 pages
hw2 Sol
No ratings yet
hw2 Sol
7 pages
Differential Forms
From Everand
Differential Forms
Henri Cartan
5/5 (2)
14.8 Lagrange Multipliers_Filled Notes
No ratings yet
14.8 Lagrange Multipliers_Filled Notes
8 pages
15.093: Optimization Methods
No ratings yet
15.093: Optimization Methods
8 pages
Opt
No ratings yet
Opt
132 pages
be_information-technology_semester-4_2024_may_engineering-mathematics-iv-rev-2019-c-scheme
No ratings yet
be_information-technology_semester-4_2024_may_engineering-mathematics-iv-rev-2019-c-scheme
3 pages
Adjoint
No ratings yet
Adjoint
7 pages
M Iii
No ratings yet
M Iii
28 pages
非線性方程式的根
No ratings yet
非線性方程式的根
17 pages
10022025_Math1145_Lecture No9_GT
No ratings yet
10022025_Math1145_Lecture No9_GT
20 pages
Constrained Optimization
No ratings yet
Constrained Optimization
23 pages
339 - UG Mathematics VI SEM 2018-19 Without GE
No ratings yet
339 - UG Mathematics VI SEM 2018-19 Without GE
16 pages
Cours Modélisation Numérique
No ratings yet
Cours Modélisation Numérique
11 pages
Assignment
No ratings yet
Assignment
7 pages
习题1
No ratings yet
习题1
90 pages
10000000
No ratings yet
10000000
11 pages
Multiple Integrals, A Collection of Solved Problems
From Everand
Multiple Integrals, A Collection of Solved Problems
Steven Tan
No ratings yet
NEOM Manual Part-II 4-Expts
No ratings yet
NEOM Manual Part-II 4-Expts
41 pages
4237 Question Paper
No ratings yet
4237 Question Paper
2 pages
Circuit Therory Lab Works
No ratings yet
Circuit Therory Lab Works
13 pages
Soln Model 2011
No ratings yet
Soln Model 2011
9 pages
Module 1
No ratings yet
Module 1
8 pages
Robust Computation of Foot Points On Implicitly Defined Curves
No ratings yet
Robust Computation of Foot Points On Implicitly Defined Curves
10 pages
有限元数值解法在MATLAB中的实现及可视化_冯桂莲
No ratings yet
有限元数值解法在MATLAB中的实现及可视化_冯桂莲
4 pages
Ram 3
No ratings yet
Ram 3
2 pages
Problem Sheet CO5 Linear
No ratings yet
Problem Sheet CO5 Linear
1 page
CirclesFormualaSheetlyx PDF
No ratings yet
CirclesFormualaSheetlyx PDF
5 pages
Circles For Mu Alas He Etly X
No ratings yet
Circles For Mu Alas He Etly X
5 pages
UECM1693/UECM2623/UGCM2623 Tutorial N3: Solution of Linear Systems
No ratings yet
UECM1693/UECM2623/UGCM2623 Tutorial N3: Solution of Linear Systems
2 pages
1203.3002v1
No ratings yet
1203.3002v1
37 pages
微積分二 (106年) 期中
No ratings yet
微積分二 (106年) 期中
16 pages
Assignment 3
0% (1)
Assignment 3
3 pages
ODS Assigment
No ratings yet
ODS Assigment
2 pages
Conjugate Gradient Method
No ratings yet
Conjugate Gradient Method
30 pages
Homework: Subject 1: Identify and Make A Classification For Numerical Methods Used in Mechanical Engineering
No ratings yet
Homework: Subject 1: Identify and Make A Classification For Numerical Methods Used in Mechanical Engineering
7 pages
AppliedMathsEOS
No ratings yet
AppliedMathsEOS
8 pages
Tutorial5 and Quiz Solutions
No ratings yet
Tutorial5 and Quiz Solutions
7 pages
ece-iv-engineering-mathematics-iv-10mat41-solution
No ratings yet
ece-iv-engineering-mathematics-iv-10mat41-solution
26 pages