SlideShare a Scribd company logo
確率分布間の距離をどう測るか?
A summary on “On choosing and bounding
probability metrics”
June 20, 2018
松井孝太
理研 AIP データ駆動型生物医科学チーム
Table of contents
1. Introduction
2. 10 metrics on probability measures
3. Some relationships among probability metrics
4. Why Wasserstein distance?
1
Introduction
Introduction I
Alison et al. [2002], “On choosing and bounding
probability metrics” の 3 章までのまとめ
問題意識
最近 Wasserstein distance を使った ML の方法論が (と
りわけ domain adaptation の文脈で)  次々提案されて
いるが, なぜ Wasserstein distance を使うのが良いのか
を知りたかった
2
Introduction II
• 確率分布間の metric として何を使えば良いのか問題.
• metric の選び方によって問題の解釈や理論的性質, 使
える bound テクも変わってくる.
• もし metric 間の関係が明らかであれば, 1 つの metric
の理論を他の metric に拡張することができる.
この論文 (Alison et al., 2002) では
• 10 種類の重要な metric を review し, その間の関係を
サーベイする (このスライドの目的).
• 各 metric の応用や, metric を取り替えることによっ
て (様々な) 収束レートが変動することの例示.
3
10 metrics on probability
measures
Preliminary
Notation
• (Ω, B) : (Borel) 可測空間
• P(Ω) : Ω 上の確率測度の集合
• µ, ν ∈ P(Ω) に対して, f, g をそれぞれ µ, ν の σ-有限
な λ に関する密度関数とする. (i.e. µ, ν ≪ λ)
• supp(µ) = {ω ∈ Ω | µ(ω) > 0} (µ のサポート)
• Ω = R のとき, F, G をそれぞれ µ, ν の累積分布関数と
する. また, X, Y をそれぞれ Ω 上の確率変数とすると
き, これらから誘導される分布を L(X) = µ, L(Y) = ν
と書くこともある.
• (Ω, d) が有界距離空間のとき, Ω の直径を以下で定義
diam(Ω) = sup
x,y∈Ω
d(x, y).
4
Preliminary
• Cb(Ω) : Ω 上の有界連続関数の集合
Definition 1 (弱収束, weak convergence)
µn, µ ∈ P(Ω), n = 1, 2, ... とする. ∀f ∈ Cb(Ω) に対して,
∫
Ω
f(x)µn(dx) →
∫
Ω
f(x)µ(dx)
が成り立つとき, {µn} は µ に弱収束するといい, µn ⇀ µ
と書く.
Remark 1
確率変数 Xn, X の分布を µn, µ とするとき, µn ⇀ µ であれ
ば Xn は X に分布収束 (or 法則収束) するといい, Xn →d X
と書く. 5
Preliminary
P(Ω) は弱収束の位相によって位相空間とみなせる.
Definition 2 (弱収束の距離付け可能性)
P(Ω) 上のある距離 d が定める位相が弱収束の位相と一
致するとき (すなわち, d による収束と弱収束が同値であ
るとき), P(Ω) は d で距離付け可能という.
Remark 2
本論文では, 弱収束が距離付け可能かどうかは, 確率分布
間の距離の評価指標の 1 つとして重視される.
6
1. Discrepancy metric
Definition 3 (Discrepancy metric)
Ω を距離空間とする.
dD(µ, ν) := sup
B∈B
|µ(B) − ν(B)| ∈ [0, 1],
ここで, B は Ω 上の閉球全体の集合.
• base space Ω の距離位相に基づいた距離 (閉球の体
積比較).
• スケール不変 (ベース空間の距離を正の定数倍しても
dD は変わらず)
• Fourier bound を達成する (cf : 群上のランダムウォー
クの収束証明)
7
2. Hellinger distance I
Definition 4 (Hellinger distance)
Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関
数とするとき,
dH(µ, ν) :=
[∫
Ω
(f1/2
− g1/2
)2
dλ
]1/2
=
[
2
(
1 −
∫
Ω
(fg)1/2
dλ
)]1/2
∈ [0,
√
2]
この定義は reference measure λ のとり方によらない. Ω
が可算集合のときは以下のように書ける:
dH(µ, ν) :=
[
∑
ω∈Ω
(µ(ω)1/2
− ν(ω)1/2
)2
]1/2
.
8
2. Hellinger distance II
• µ = µ1 × µ2, ν = ν1 × ν2 なる直積測度を考えると,
1 −
1
2
d2
H(µ, ν) =
(
1 −
1
2
d2
H(µ1, ν1)
) (
1 −
1
2
d2
H(µ2, ν2)
)
が成立. すなわち, ベクトル v が v = (v1, v2) のように
独立な成分を並べた形をしている場合, 対応する分布
は, 成分毎の分布の積に分解できる. 左辺は Hellinger
affinity と呼ばれる. また, 上の事実の系として
d2
H(µ, ν) ≤ d2
H(µ1, ν1) + d2
H(µ2, ν2)
が成立.
9
3. Relative Entropy (Kullback-Leibler divergence) I
Definition 5 (Relative entropy)
Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関
数とするとき,
dI(µ, ν) :=
∫
supp(µ)
f log
f
g
dλ ∈ [0, +∞],
ここで, supp(µ) ⊂ Ω は µ のサポートである. この定義は
reference measure λ のとり方によらない. Ω が可算集合
のときは以下のように書ける:
dI(µ, ν) =
∑
ω∈Ω
µ(ω) log
µ(ω)
ν(ω)
.
10
3. Relative Entropy (Kullback-Leibler divergence) II
• 慣習的に, 任意の q ∈ R に対して
0 × log
0
q
= 0
また, 任意の p ̸= 0 に対して
p × log
p
0
= +∞
とする (ために, dI ∈ [0, +∞] となる).
• 非対称かつ三角不等式を満たさないため, 距離ではな
い. 一方で, 直積測度 µ = µ1 × µ2, ν = ν1 × ν2 に対して
加法性
dI(µ, ν) = dI(µ1, ν1) + dI(µ2, ν2)
を満たす.
11
4. Kolmogorov (Uniform) metric
Definition 6 (Kolmogorov metric)
Ω = R とする. Kolmogorov metric は, R 上の分布 µ, ν の
間の距離を, 対応する分布関数 F, G の間の距離として表
現する:
dK(F, G) := sup
x∈R
|F(x) − G(x)| ∈ [0, 1],
• 単調増加な 1 対 1 変換に関して不変である.
12
5. L´evy metric
Definition 7 (L´evy metric)
Ω = R とする.
dL(F, G)
:= inf{ε > 0 : G(x − ε) − ε ≤ F(x) ≤ G(x + ε) + ε, ∀x ∈ R}
∈ [0, 1],
• L´evy metric は, R 上の弱収束位相を距離付けする:
Fn →d F as n → ∞ iff dL(Fn, F) → 0 as n → ∞.
• shift-invariant だが scale-invariant ではない.
13
6. Prokhorov ( or L´evy-Prokhorov) metric
Definition 8 (Prokhorov metric)
Ω を距離空間とする.
dP(µ, ν) := inf{ε > 0 : µ(B) ≤ ν(Bε) + ε, ∀B ⊂Borel Ω} ∈ [0, 1],
ここで, Bε = {x : infy∈B d(x, y) ≤ ε}.
• dP は対称性を持つ.
•
14
7. Separation distance
Definition 9 (Separation distance)
Ω を可算空間とする.
dS(µ, ν) := max
i
(
1 −
µ(i)
ν(i)
)
∈ [0, 1].
• dS は厳密な距離ではない.
• マルコフ連鎖の解析のために導入された.
15
8. Total variation I
Definition 10 (Total variation)
Ω を可測空間とする.
dTV(µ, ν) := sup
A⊂Ω
|µ(A) − ν(A)|
=
1
2
max
|h|≤1
∫
hdµ −
∫
hdν ∈ [0, 1],
ここで, h : Ω → R. Ω が可算空間のとき,
dTV :=
1
2
∑
ω∈Ω
|µ(ω) − ν(ω)|
と定める. これは L1 ノルムの 1/2 倍であり, 文献によっ
ては 2dTV を total variation と定義するものもある.
16
8. Total variation II
Total variation はカップリング測度の inf として特徴付け
ができる:
dTV(µ, ν) = inf{Pr(X ̸= Y) | X, Y : r.v. s.t. L(X) = µ, L(Y) = ν}
(1)
17
9. Wasserstein (or Kantorovich) distance I
Definition 11 (Wasserstein distance)
Ω を可分距離空間とする. µ, ν の 1-Wasserstein distance
を
dW(µ, ν) = inf
π∈Π(µ,ν)
∫
Ω×Ω
d(x, y)dπ(x, y)
で定義する. ここで,
Π(µ, ν) := {π : prob. measure on Ω × Ω |
π(B × Ω) = µ(B), π(Ω × B) = ν(B), ∀B ⊂ Ω}
を Ω 上のカップリング測度の集合と呼ぶ.
18
9. Wasserstein (or Kantorovich) distance II
• Kantorovich-Rubinstein duality より,
dW(µ, ν) = sup
∥h∥L≤1
∫
hdµ −
∫
hdν ∈ [0, diam(Ω)]
が成立. ここで, sup は Lipschitz condition
|h(x) − h(y)| ≤ d(x, y) を満たす h について取る. この
右辺を Kantorovich metric と呼ぶ.
• 特に Ω = R のとき, 右辺は以下のように書ける:
∫ ∞
−∞
|F(x) − G(x)|dx =
∫ 1
0
|F−1
(t) − G−1
(t)|dt
19
10. χ2
-distance I
Definition 12 (χ2
distance)
Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関
数とするとき,
dχ2 (µ, ν) :=
∫
supp(µ)∪supp(ν)
(f − g)2
g
dλ ∈ [0, ∞].
特に Ω が可算空間のとき以下のように書ける:
dχ2 (µ, ν) :=
∑
ω∈supp(µ)∪supp(ν)
(µ(ω) − ν(ω))2
ν(ω)
.
20
10. χ2
-distance II
この metric は対称性を持たない (すなわち距離ではない).
一方で, 直積測度 µ = µ1 × µ2, ν = ν1 × ν2 に対して,
Hellinger distance や relative entropy と同様に
dχ2 (µ, ν) ≤ dχ2 (µ1, ν1) + dχ2 (µ2, ν2)
が成立.
21
Remarks
任意の凸関数 f に対して, µ と ν の間の f-divergence を
df(µ, ν) :=
∑
ω
ν(ω)f
(
µ(ω)
ν(ω)
)
で定義すると, 種々の metric を統一的に表現できる.
22
Example I : χ2
-distance
f(x) = (x − 1)2
ととると, χ2
-distance が導出される:
df(µ, ν) =
∑
ω
ν(ω)
(
µ(ω)
ν(ω)
− 1
)2
=
∑
ω
ν(ω)
(
µ(ω) − ν(ω)
ν(ω)
)2
= dχ2 (µ, ν)
23
Example II : relative entropy
f(x) = x log x ととると, relative entropy が導出される:
df(µ, ν) =
∑
ω
ν(ω)
µ(ω)
ν(ω)
log
µ(ω)
ν(ω)
=
∑
ω
µ(ω) log
µ(ω)
ν(ω)
= dI(µ, ν)
24
Example III : total variation
f(x) = |x−1|
2
ととると, total variation が導出される:
df(µ, ν) =
∑
ω
ν(ω)
|µ(ω)
ν(ω)
− 1|
2
=
1
2
∑
ω
|µ(ω) − ν(ω)|
= dTV(µ, ν)
25
Example IV : Hellinger distance
f(x) = (
√
x − 1)2
ととると, Hellinger distance が導出され
る:
df(µ, ν) =
∑
ω
ν(ω)
(√
µ(ω)
ν(ω)
− 1
)2
=
∑
ω
ν(ω)
(
µ(ω)
ν(ω)
− 2
√
µ(ω)
ν(ω)
− 1
)
=
∑
ω
(
µ(ω) − 2
√
µ(ω)ν(ω) − ν(ω)
)
=
∑
ω
(√
µ(ω) −
√
ν(ω)
)2
= dH(µ, ν)2
26
Some relationships among
probability metrics
S
❅
❅
❅
❅
❅
❅■ x
TV ✲x
✛√
2x
H
W
on
metric
spaces
❅
❅
❅
❅
❅
❅❘
x/dmin ❅
❅
❅
❅
❅
❅■ diamΩ · x
✲
√
x
✛
(diamΩ + 1) x
 
 
 
 
 
 ✒√
x/2
ν dom µ
❅
❅
❅
❅
❅
❅■
√
x✻x/2
I ✲log(1 + x)
χ2 non-metric
distances
✻√
x
ν dom µ
✻x
P
 
 
 
 
 
 ✒x
D
❄
2x
✻x
K L on IR
✻x
✛x
✲(1 + sup |G′|)x
✲x + φ(x)
論文 Figure 1 の確率分布間の距離の関係の詳細を見る.
27
Kolmogorov-L´evy on R
Fact 1
確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする
とき,
dL(F, G) ≤ dK(F, G) (2)
が成立 (Huber, 1981). さらに, もし G がルベーグ測度に
対して絶対連続であれば,
dK(F, G) ≤
(
1 + sup
x
|G′
(x)|
)
dL(F, G)
が成立 (Petrov, 1995). ここで, G′
は G の微分 (密度関数)
を表す.
28
Discrepancy-Kolmogorov on R
Fact 2
確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする
とき,
dK(F, G) ≤ dD(µ, ν) ≤ 2dK(F, G) (3)
が成立.
29
Prokhorov-L´evy on R
Fact 3
確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする
とき,
dL(F, G) ≤ dP(µ, ν)
が成立 (Huber, 1981).
30
Prokhorov-Discrepancy I
Theorem 1
Ω を任意の距離空間, ν を
ν(Bε) ≤ ν(B) + ϕ(ε), ∀B : ball on Ω
を満たす任意の確率測度とする. ここで, ϕ は右連続な関
数とする (任意の ball を ε だけ膨らませた ball の体積の
増え方は, ある右連続関数で記述される). このとき,
dP(µ, ν) = x を満たす任意の確率測度 µ に対して,
dD(µ, ν) ≤ x + ϕ(x)
が成立. すなわち,
dD(µ, ν) ≤ dP(µ, ν) + ϕ(dP(µ, ν))
31
Prokhorov-Discrepancy II
Example 1
ν として S1
または R 上の一様分布をとる (ν = U). この
とき, ϕ(x) = 2x ととると,
dD(µ, U) ≤ 3dP(µ, U)
が成立.
(proof) ν(Bx) ≤ ν(B) + ϕ(x) より,
µ(B) − ν(Bx) ≥ µ(B) − ν(B) − ϕ(x)
が成立. dP(µ, ν) = x ならば, ∀˜x > x に対して,
µ(B) − ν(B˜x) ≤ ˜x
が成立 (上式を満たす ˜x の inf が dP). 32
Prokhorov-Discrepancy III
(proof つづき) 2 つの不等式を合わせると,
µ(B) − ν(B) − ϕ(˜x) ≤ ˜x
となり, B に関して sup をとると,
sup
B
(µ(B) − ν(B)) ≤ ˜x + ϕ(˜x) (4)
を得る. ここで,
ν(B) − µ(B) = 1 − ν(Bc
) − (1 − µ(Bc
)) = µ(Bc
) − ν(Bc
)
より (Bc
は B の補集合),
sup
B
(ν(B) − µ(B)) = sup
Bc
(µ(Bc
) − ν(Bc
)) ≤ ˜x + ϕ(˜x) (5)
が成立.
33
Prokhorov-Discrepancy IV
(proof つづき) (4) と (5) 及び supB ≤ supB,Bc より,
dD(µ, ν) ≤ ˜x + ϕ(˜x)
を得る. 右辺で ˜x ↘ x とすれば, 所望の結果を得る (ϕ は右
連続だから, ϕ(x) = lim
˜x↘x
ϕ(˜x) は存在). 2
34
Prokhorov-Wasserstein I
Theorem 2
Ω が完備可分な距離空間のとき,
(dP)2
≤ dW ≤ (diam(Ω) + 1)dP
が成立.
(proof) J を確率変数 X, Y の同時分布とするとき,
EJ[d(X, Y)] ≤ ε × Pr(d(X, Y) ≤ ε) + diam(Ω) × Pr(d(X, Y) > ε)
= ε × (1 − Pr(d(X, Y) > ε))
+ diam(Ω) × Pr(d(X, Y) > ε)
= ε + (diam(Ω) − ε) × Pr(d(X, Y) > ε)
が成立 (ε を実現値として期待値を書き, 上からバウンド). 35
Prokhorov-Wasserstein II
dP(µ, ν) ≤ ε であるとき,
Prπ(d(X, Y) > ε) ≤ ε
を満たす π ∈ Π(µ, ν) がとれる (Huber, 1981). このとき,
EJ[d(X, Y)] ≤ ε + (diam(Ω) − ε
≤diam(Ω)
)ε ≤ (diam(Ω) + 1)ε
が成り立つから, π ∈ Π(µ, ν) に関する inf をとれば,
dW ≤ (diam(Ω) + 1)dP
が成立 (主張の右側の不等号).
36
Prokhorov-Wasserstein III
一方で, ε を dW(µ, ν) = ε2
となるようにとると, Markov の
不等式 (Pr(|X| > a) ≤ 1
a
E[|X|]) より
Pr(d(X, Y) > ε) ≤
1
ε
EJ[d(X, Y)] ≤
1
ε
× ε2
= ε
が成立.
Lemma 1 (Strassen’s theorem)
∀B ⊂Borel Ω に対して,
Pr(d(X, Y) > ε) ≤ ε ⇐⇒ µ(B) ≤ ν(Bε) + ε.
Lemma 1で ε の inf をとれば, 所望の結果を得る:
dP ≤ ε ⇒ (dP)2
≤ ε2
= dW. 2 37
Prokhorov-Wasserstein IV
Remark 3
• Ω が非有界のとき, 定理のようなバウンドは不成立.
Example 2 (Theorem 2 の反例 (Dudkey, 1989))
Ω = R とし,
Pn :=
(n − 1)δ0 + δn
n
とおくと, dP(Pn, δ0) → 0 as n → ∞ だが, dW(Pn, δ0) = 1, ∀n
となる.
• Theorem 2の特別な場合として, (Ω, d) が完備可分距
離空間で d ≤ 1 のとき, 以下が成立  (Huber, 1981):
(dP)2
≤ dW ≤ 2dP. 38
Wasserstein-Discrepancy I
Theorem 3
Ω が有限集合のとき,
dmin × dD ≤ dW
が成り立つ. ここで, dmin = minx̸=y d(x, y) である.
Remark 4
この定理の左辺は, Ω が無限集合のとき, dmin をいくらで
も小さくできる場合があり, 確率分布間の距離の比較と
しては情報がほとんどないことがある (Theorem 4の節
も参照).
39
Total variation-Discrepancy
Discrepancy はすべての ball に関する sup であり, total
variation はすべての可測集合に関する sup であるから,
明らかに
dD ≤ dTV
が成り立つ (後者の方が sup をとる範囲が広い).
Remark 5
離散分布 · 連続分布どちらの状況でも, dTV=1 = 1 かつ dD
をいくらでも小さくできる場合があるため, 逆向き
(dTV ≤ dD) は言えない.
40
Total variation-Prokhorov
Ω が距離空間のとき, µ, ν ∈ P(Ω) に対して,
dP ≤ dTV
が成立 (Huber, 1981).
41
Wasserstein-Total variation I
Theorem 4
次の bound が成り立つ:
dW ≤ diam(Ω) × dTV.
Ω が有限集合のとき, Theorem 3 と同様の bound が成立:
dmin × dTV ≤ dW.
Remark 6
Ω が無限集合のとき, Theorem 3と同様に dmin をいくら
でも小さくでき得るので, less information な可能性が
ある.
42
Wasserstein-Total variation II
(proof) 最初の不等式は, general な不等式
d(X, Y) ≤ 1X̸=Y × diam(Ω)
に対して, 両辺で coupling measure に関する inf をとると
得られる (TV distance における (1) による). 逆向きの不等
式は,
d(X, Y) ≥ 1X̸=Y × min
a̸=b
d(a, b)
の両辺で coupling measure に関して inf をとれば OK.
43
Hellinger-Total variation
Fact 4 (LeCam, 1969)
d2
H
2
≤ dTV ≤ dH
44
Separation distance-Total variation
Fact 5 (Aldous & Diaconis, 1987)
dTV ≤ dS
逆は一般に成り立たない.
(∵) µ, ν をそれぞれ {1, ..., n}, {1, ..., n − 1} 上の一様分布と
すると,
dTV(µ, ν) =
1
n
≤ dS(µ, ν) = 1
2
45
Relative entropy-Total variation
Fact 6 (Kullback, 1967)
Ω が可算空間のとき,
2d2
TV ≤ dI
46
Relative entropy-Hellinger
Fact 7 (Reiss, 1989)
d2
H ≤ dI
47
χ2
-Hellinger
Fact 8 (Reiss, 1989)
dH ≤
√
2d
1/4
χ2 .
さらに, µ が ν に対して絶対連続であれば,
dH ≤ d
1/2
χ2
が成立.
48
χ2
-Total variation
Fact 9
可算空間 Ω において, Cauchy-Schwarz の不等式から,
dTV(µ, ν) =
1
2
∑
ω∈Ω
|µ(ω) − ν(ω)|
√
ν(ω)
√
ν(ω) ≤
1
2
√
dχ2 (µ, ν)
が成立.
Remark 7
Ω が連続な空間の場合でも, µ が ν に対して絶対連続で
あれば同様の結果が成立 (Reiss, 1989).
49
χ2
-Relative entropy I
Theorem 5
dI(µ, ν) ≤ log(1 + dχ2 (µ, ν))
が成り立つ. 特に, dI ≤ dχ2
(proof) log の concavity より, Jensen の不等式を用いると
dI(µ, ν) =
∫
Ω
f log
f
g
dλ ≤
Jensen
log
(∫
Ω
f
g
fdλ
)
= log
(
1 + dχ2 (µ, ν)
)
≤ dχ2 (µ, ν)
が成立. 50
χ2
-Relative entropy II
(proof つづき) ここで, 2 番目の等号は以下による:
dχ2 (µ, ν) =
∫
Ω
(f − g)2
g
dλ =
∫
Ω
(
f
g
f − 2f + g
)
=
∫
Ω
f
g
fdλ − 2
∫
Ω
fdλ
=1
+
∫
Ω
gdλ
=1
=
∫
Ω
f
g
fdλ − 1.
また, 最後の不等号は, log(x + 1) ≤ x から従う. 2
Remark 8
Diaconis & Saloff-Coste (1996) による bound:
dI(µ, ν) ≤ dTV(µ, ν) +
1
2
dχ2 (µ, ν) 51
Weak Convergence I
• Figure 1 のダイアグラムは, 個々の metric 間の関係
(bound) を導出するだけでなく, 確率測度空間に誘導
される位相の関係も示している.
• 例えば, Hellinger metric と Total variation の間の相
互の矢印 H ⇆ TV は, これら 2 つの metric が誘導す
る位相が同値であることを示す.
• また, Prokhorov や L´evy は弱位相を距離付けするが,
他のどの metric がどのような base space 上で同様
に弱位相を距離付けするかを次の定理にまとめる.
52
Weak Convergence II
Theorem 6
• P(R) に対して, L´evy は弱収束を距離付けする. また,
discrepancy や Kolmogorov は L´evy の upper bound
を与える ((2), (3) 式参照) ので, L´evy を通して弱収束
を誘導する. さらに, discrepancy と Kolmogorov は µ
が R 上のルベーグ測度に対して絶対連続のとき, 弱収
束 µn → µ を距離付けする.
• Ω が可測空間のとき, Prokhorov は弱収束を距離付け
する. また, Wasserstein による収束は弱収束を誘導す
る. さらに, Ω が有界であれば, Wasserstein は弱収束
を距離付けする (Prokhorov の upper bound より).
53
Weak Convergence III
Theorem 7 (つづき)
• 次の metric による収束は弱収束を誘導する:
• Hellinger
• separation
• relative entropy
• χ2
• Ω が有限かつ有界のとき, total variation と Hellinger
は弱収束を距離付けする.
54
Why Wasserstein distance?
Way Wasserstein distance? I
Wasserstein は弱収束を距離付けする distance measure
他の distance measure との関係 (tightness)
• Wasserstein ≤ (diam(Ω) + 1)× Prokhorov
• Wasserstein ≤ diam(Ω)× Total variation
• Wasserstein ≤
√
2 × diam(Ω) × KL div.
Key Inequality (Csisz´ar-Kullback-Pinsker)
For p, q ∈ P(Ω),
W1(p, q) ≤ diam(Ω)∥p − q∥TV ≤
√
2diam(Ω)KL(p||q)
55
Way Wasserstein distance? II
Domain adaptation の文脈では...
Wasserstein distance を用いるメリット
1. 2 つの分布のサポートに overlap がない場合でも,
meaningful な距離を与えてくれる (KL などの
f-divergence は, 分布の比が発散するのでダメ).
2. 分布間の距離だけでなく, “どう近づければ良いか?”
という方法も輸送写像として同時に与えてくれる.
3. データの位相的性質を保存する (輸送写像の連続性?)
4. 汎化誤差の bound が他の metric よりも tight.
ref Courty, N. et al. [2017] “Optimal transport for domain
adaptation.” 56
Way Wasserstein distance? III
Domain adaptation を adversarial training (Wasserstein
GAN) として実現できる :
inf
fg
W1(PhS , Pht ) = inf
fg
sup
∥fw∥L≤1
EPxs [fw(fg(x))] − EPxt [fw(fg(x))]
• Pxs , Pxt は source, target のデータ分布
• fw は discriminator (Wasserstein dist. の推定を行う)
• fg は generator (source と target の特徴抽出を行う)
ref Shen, J. et al. [AAAI2018] “Wasserstein Distance
Guided Representation Learning for Domain Adaptation”
57

More Related Content

What's hot (20)

PDF
最適輸送入門
joisino
 
PDF
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
Takami Sato
 
PDF
数学で解き明かす深層学習の原理
Taiji Suzuki
 
PPTX
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
 
PDF
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
 
PDF
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
PDF
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
PPTX
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ssuserca2822
 
PDF
敵対的学習に対するラデマッハ複雑度
Masa Kato
 
PDF
最適輸送の計算アルゴリズムの研究動向
ohken
 
PDF
全力解説!Transformer
Arithmer Inc.
 
PDF
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
Toshihiro Kamishima
 
PDF
PRML8章
弘毅 露崎
 
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
PPTX
ベイズ統計学の概論的紹介
Naoki Hayashi
 
PDF
グラフィカル Lasso を用いた異常検知
Yuya Takashina
 
PDF
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
MLSE
 
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
PDF
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
 
最適輸送入門
joisino
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
Takami Sato
 
数学で解き明かす深層学習の原理
Taiji Suzuki
 
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
 
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
 
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ssuserca2822
 
敵対的学習に対するラデマッハ複雑度
Masa Kato
 
最適輸送の計算アルゴリズムの研究動向
ohken
 
全力解説!Transformer
Arithmer Inc.
 
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
Toshihiro Kamishima
 
PRML8章
弘毅 露崎
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
ベイズ統計学の概論的紹介
Naoki Hayashi
 
グラフィカル Lasso を用いた異常検知
Yuya Takashina
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
MLSE
 
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
 

Similar to A summary on “On choosing and bounding probability metrics” (20)

PDF
統計的因果推論 勉強用 isseing333
Issei Kurahashi
 
PPTX
GEE(一般化推定方程式)の理論
Koichiro Gibo
 
PPTX
Prml 1.3~1.6 ver3
Toshihiko Iio
 
PDF
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
Toshiyuki Shimono
 
PDF
2013 03 25
Mutsuki Kojima
 
PDF
PRML2.3.8~2.5 Slides in charge
Junpei Matsuda
 
PDF
距離まとめられませんでした
Haruka Ozaki
 
PDF
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
Kenichi Hironaka
 
PDF
PRML 第4章
Akira Miyazawa
 
PDF
モンテカルロサンプリング
Kosei ABE
 
PDF
PRML_titech 2.3.1 - 2.3.7
Takafumi Sakakibara
 
PDF
分布 isseing333
Issei Kurahashi
 
PPTX
Angle-Based Outlier Detection周辺の論文紹介
Naotaka Yamada
 
PDF
Nips yomikai 1226
Yo Ehara
 
PDF
Math20160415 epsilondelta
Atsushi Kadotani
 
PDF
PRML 10.4 - 10.6
Akira Miyazawa
 
PDF
Prml2.1 2.2,2.4-2.5
Takuto Kimura
 
PDF
確率解析計算
Yusuke Matsushita
 
PDF
PRML2.1 2.2
Takuto Kimura
 
PDF
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
 
統計的因果推論 勉強用 isseing333
Issei Kurahashi
 
GEE(一般化推定方程式)の理論
Koichiro Gibo
 
Prml 1.3~1.6 ver3
Toshihiko Iio
 
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
Toshiyuki Shimono
 
2013 03 25
Mutsuki Kojima
 
PRML2.3.8~2.5 Slides in charge
Junpei Matsuda
 
距離まとめられませんでした
Haruka Ozaki
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
Kenichi Hironaka
 
PRML 第4章
Akira Miyazawa
 
モンテカルロサンプリング
Kosei ABE
 
PRML_titech 2.3.1 - 2.3.7
Takafumi Sakakibara
 
分布 isseing333
Issei Kurahashi
 
Angle-Based Outlier Detection周辺の論文紹介
Naotaka Yamada
 
Nips yomikai 1226
Yo Ehara
 
Math20160415 epsilondelta
Atsushi Kadotani
 
PRML 10.4 - 10.6
Akira Miyazawa
 
Prml2.1 2.2,2.4-2.5
Takuto Kimura
 
確率解析計算
Yusuke Matsushita
 
PRML2.1 2.2
Takuto Kimura
 
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
 
Ad

A summary on “On choosing and bounding probability metrics”

  • 1. 確率分布間の距離をどう測るか? A summary on “On choosing and bounding probability metrics” June 20, 2018 松井孝太 理研 AIP データ駆動型生物医科学チーム
  • 2. Table of contents 1. Introduction 2. 10 metrics on probability measures 3. Some relationships among probability metrics 4. Why Wasserstein distance? 1
  • 4. Introduction I Alison et al. [2002], “On choosing and bounding probability metrics” の 3 章までのまとめ 問題意識 最近 Wasserstein distance を使った ML の方法論が (と りわけ domain adaptation の文脈で)  次々提案されて いるが, なぜ Wasserstein distance を使うのが良いのか を知りたかった 2
  • 5. Introduction II • 確率分布間の metric として何を使えば良いのか問題. • metric の選び方によって問題の解釈や理論的性質, 使 える bound テクも変わってくる. • もし metric 間の関係が明らかであれば, 1 つの metric の理論を他の metric に拡張することができる. この論文 (Alison et al., 2002) では • 10 種類の重要な metric を review し, その間の関係を サーベイする (このスライドの目的). • 各 metric の応用や, metric を取り替えることによっ て (様々な) 収束レートが変動することの例示. 3
  • 6. 10 metrics on probability measures
  • 7. Preliminary Notation • (Ω, B) : (Borel) 可測空間 • P(Ω) : Ω 上の確率測度の集合 • µ, ν ∈ P(Ω) に対して, f, g をそれぞれ µ, ν の σ-有限 な λ に関する密度関数とする. (i.e. µ, ν ≪ λ) • supp(µ) = {ω ∈ Ω | µ(ω) > 0} (µ のサポート) • Ω = R のとき, F, G をそれぞれ µ, ν の累積分布関数と する. また, X, Y をそれぞれ Ω 上の確率変数とすると き, これらから誘導される分布を L(X) = µ, L(Y) = ν と書くこともある. • (Ω, d) が有界距離空間のとき, Ω の直径を以下で定義 diam(Ω) = sup x,y∈Ω d(x, y). 4
  • 8. Preliminary • Cb(Ω) : Ω 上の有界連続関数の集合 Definition 1 (弱収束, weak convergence) µn, µ ∈ P(Ω), n = 1, 2, ... とする. ∀f ∈ Cb(Ω) に対して, ∫ Ω f(x)µn(dx) → ∫ Ω f(x)µ(dx) が成り立つとき, {µn} は µ に弱収束するといい, µn ⇀ µ と書く. Remark 1 確率変数 Xn, X の分布を µn, µ とするとき, µn ⇀ µ であれ ば Xn は X に分布収束 (or 法則収束) するといい, Xn →d X と書く. 5
  • 9. Preliminary P(Ω) は弱収束の位相によって位相空間とみなせる. Definition 2 (弱収束の距離付け可能性) P(Ω) 上のある距離 d が定める位相が弱収束の位相と一 致するとき (すなわち, d による収束と弱収束が同値であ るとき), P(Ω) は d で距離付け可能という. Remark 2 本論文では, 弱収束が距離付け可能かどうかは, 確率分布 間の距離の評価指標の 1 つとして重視される. 6
  • 10. 1. Discrepancy metric Definition 3 (Discrepancy metric) Ω を距離空間とする. dD(µ, ν) := sup B∈B |µ(B) − ν(B)| ∈ [0, 1], ここで, B は Ω 上の閉球全体の集合. • base space Ω の距離位相に基づいた距離 (閉球の体 積比較). • スケール不変 (ベース空間の距離を正の定数倍しても dD は変わらず) • Fourier bound を達成する (cf : 群上のランダムウォー クの収束証明) 7
  • 11. 2. Hellinger distance I Definition 4 (Hellinger distance) Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関 数とするとき, dH(µ, ν) := [∫ Ω (f1/2 − g1/2 )2 dλ ]1/2 = [ 2 ( 1 − ∫ Ω (fg)1/2 dλ )]1/2 ∈ [0, √ 2] この定義は reference measure λ のとり方によらない. Ω が可算集合のときは以下のように書ける: dH(µ, ν) := [ ∑ ω∈Ω (µ(ω)1/2 − ν(ω)1/2 )2 ]1/2 . 8
  • 12. 2. Hellinger distance II • µ = µ1 × µ2, ν = ν1 × ν2 なる直積測度を考えると, 1 − 1 2 d2 H(µ, ν) = ( 1 − 1 2 d2 H(µ1, ν1) ) ( 1 − 1 2 d2 H(µ2, ν2) ) が成立. すなわち, ベクトル v が v = (v1, v2) のように 独立な成分を並べた形をしている場合, 対応する分布 は, 成分毎の分布の積に分解できる. 左辺は Hellinger affinity と呼ばれる. また, 上の事実の系として d2 H(µ, ν) ≤ d2 H(µ1, ν1) + d2 H(µ2, ν2) が成立. 9
  • 13. 3. Relative Entropy (Kullback-Leibler divergence) I Definition 5 (Relative entropy) Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関 数とするとき, dI(µ, ν) := ∫ supp(µ) f log f g dλ ∈ [0, +∞], ここで, supp(µ) ⊂ Ω は µ のサポートである. この定義は reference measure λ のとり方によらない. Ω が可算集合 のときは以下のように書ける: dI(µ, ν) = ∑ ω∈Ω µ(ω) log µ(ω) ν(ω) . 10
  • 14. 3. Relative Entropy (Kullback-Leibler divergence) II • 慣習的に, 任意の q ∈ R に対して 0 × log 0 q = 0 また, 任意の p ̸= 0 に対して p × log p 0 = +∞ とする (ために, dI ∈ [0, +∞] となる). • 非対称かつ三角不等式を満たさないため, 距離ではな い. 一方で, 直積測度 µ = µ1 × µ2, ν = ν1 × ν2 に対して 加法性 dI(µ, ν) = dI(µ1, ν1) + dI(µ2, ν2) を満たす. 11
  • 15. 4. Kolmogorov (Uniform) metric Definition 6 (Kolmogorov metric) Ω = R とする. Kolmogorov metric は, R 上の分布 µ, ν の 間の距離を, 対応する分布関数 F, G の間の距離として表 現する: dK(F, G) := sup x∈R |F(x) − G(x)| ∈ [0, 1], • 単調増加な 1 対 1 変換に関して不変である. 12
  • 16. 5. L´evy metric Definition 7 (L´evy metric) Ω = R とする. dL(F, G) := inf{ε > 0 : G(x − ε) − ε ≤ F(x) ≤ G(x + ε) + ε, ∀x ∈ R} ∈ [0, 1], • L´evy metric は, R 上の弱収束位相を距離付けする: Fn →d F as n → ∞ iff dL(Fn, F) → 0 as n → ∞. • shift-invariant だが scale-invariant ではない. 13
  • 17. 6. Prokhorov ( or L´evy-Prokhorov) metric Definition 8 (Prokhorov metric) Ω を距離空間とする. dP(µ, ν) := inf{ε > 0 : µ(B) ≤ ν(Bε) + ε, ∀B ⊂Borel Ω} ∈ [0, 1], ここで, Bε = {x : infy∈B d(x, y) ≤ ε}. • dP は対称性を持つ. • 14
  • 18. 7. Separation distance Definition 9 (Separation distance) Ω を可算空間とする. dS(µ, ν) := max i ( 1 − µ(i) ν(i) ) ∈ [0, 1]. • dS は厳密な距離ではない. • マルコフ連鎖の解析のために導入された. 15
  • 19. 8. Total variation I Definition 10 (Total variation) Ω を可測空間とする. dTV(µ, ν) := sup A⊂Ω |µ(A) − ν(A)| = 1 2 max |h|≤1 ∫ hdµ − ∫ hdν ∈ [0, 1], ここで, h : Ω → R. Ω が可算空間のとき, dTV := 1 2 ∑ ω∈Ω |µ(ω) − ν(ω)| と定める. これは L1 ノルムの 1/2 倍であり, 文献によっ ては 2dTV を total variation と定義するものもある. 16
  • 20. 8. Total variation II Total variation はカップリング測度の inf として特徴付け ができる: dTV(µ, ν) = inf{Pr(X ̸= Y) | X, Y : r.v. s.t. L(X) = µ, L(Y) = ν} (1) 17
  • 21. 9. Wasserstein (or Kantorovich) distance I Definition 11 (Wasserstein distance) Ω を可分距離空間とする. µ, ν の 1-Wasserstein distance を dW(µ, ν) = inf π∈Π(µ,ν) ∫ Ω×Ω d(x, y)dπ(x, y) で定義する. ここで, Π(µ, ν) := {π : prob. measure on Ω × Ω | π(B × Ω) = µ(B), π(Ω × B) = ν(B), ∀B ⊂ Ω} を Ω 上のカップリング測度の集合と呼ぶ. 18
  • 22. 9. Wasserstein (or Kantorovich) distance II • Kantorovich-Rubinstein duality より, dW(µ, ν) = sup ∥h∥L≤1 ∫ hdµ − ∫ hdν ∈ [0, diam(Ω)] が成立. ここで, sup は Lipschitz condition |h(x) − h(y)| ≤ d(x, y) を満たす h について取る. この 右辺を Kantorovich metric と呼ぶ. • 特に Ω = R のとき, 右辺は以下のように書ける: ∫ ∞ −∞ |F(x) − G(x)|dx = ∫ 1 0 |F−1 (t) − G−1 (t)|dt 19
  • 23. 10. χ2 -distance I Definition 12 (χ2 distance) Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関 数とするとき, dχ2 (µ, ν) := ∫ supp(µ)∪supp(ν) (f − g)2 g dλ ∈ [0, ∞]. 特に Ω が可算空間のとき以下のように書ける: dχ2 (µ, ν) := ∑ ω∈supp(µ)∪supp(ν) (µ(ω) − ν(ω))2 ν(ω) . 20
  • 24. 10. χ2 -distance II この metric は対称性を持たない (すなわち距離ではない). 一方で, 直積測度 µ = µ1 × µ2, ν = ν1 × ν2 に対して, Hellinger distance や relative entropy と同様に dχ2 (µ, ν) ≤ dχ2 (µ1, ν1) + dχ2 (µ2, ν2) が成立. 21
  • 25. Remarks 任意の凸関数 f に対して, µ と ν の間の f-divergence を df(µ, ν) := ∑ ω ν(ω)f ( µ(ω) ν(ω) ) で定義すると, 種々の metric を統一的に表現できる. 22
  • 26. Example I : χ2 -distance f(x) = (x − 1)2 ととると, χ2 -distance が導出される: df(µ, ν) = ∑ ω ν(ω) ( µ(ω) ν(ω) − 1 )2 = ∑ ω ν(ω) ( µ(ω) − ν(ω) ν(ω) )2 = dχ2 (µ, ν) 23
  • 27. Example II : relative entropy f(x) = x log x ととると, relative entropy が導出される: df(µ, ν) = ∑ ω ν(ω) µ(ω) ν(ω) log µ(ω) ν(ω) = ∑ ω µ(ω) log µ(ω) ν(ω) = dI(µ, ν) 24
  • 28. Example III : total variation f(x) = |x−1| 2 ととると, total variation が導出される: df(µ, ν) = ∑ ω ν(ω) |µ(ω) ν(ω) − 1| 2 = 1 2 ∑ ω |µ(ω) − ν(ω)| = dTV(µ, ν) 25
  • 29. Example IV : Hellinger distance f(x) = ( √ x − 1)2 ととると, Hellinger distance が導出され る: df(µ, ν) = ∑ ω ν(ω) (√ µ(ω) ν(ω) − 1 )2 = ∑ ω ν(ω) ( µ(ω) ν(ω) − 2 √ µ(ω) ν(ω) − 1 ) = ∑ ω ( µ(ω) − 2 √ µ(ω)ν(ω) − ν(ω) ) = ∑ ω (√ µ(ω) − √ ν(ω) )2 = dH(µ, ν)2 26
  • 31. S ❅ ❅ ❅ ❅ ❅ ❅■ x TV ✲x ✛√ 2x H W on metric spaces ❅ ❅ ❅ ❅ ❅ ❅❘ x/dmin ❅ ❅ ❅ ❅ ❅ ❅■ diamΩ · x ✲ √ x ✛ (diamΩ + 1) x            ✒√ x/2 ν dom µ ❅ ❅ ❅ ❅ ❅ ❅■ √ x✻x/2 I ✲log(1 + x) χ2 non-metric distances ✻√ x ν dom µ ✻x P            ✒x D ❄ 2x ✻x K L on IR ✻x ✛x ✲(1 + sup |G′|)x ✲x + φ(x) 論文 Figure 1 の確率分布間の距離の関係の詳細を見る. 27
  • 32. Kolmogorov-L´evy on R Fact 1 確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする とき, dL(F, G) ≤ dK(F, G) (2) が成立 (Huber, 1981). さらに, もし G がルベーグ測度に 対して絶対連続であれば, dK(F, G) ≤ ( 1 + sup x |G′ (x)| ) dL(F, G) が成立 (Petrov, 1995). ここで, G′ は G の微分 (密度関数) を表す. 28
  • 33. Discrepancy-Kolmogorov on R Fact 2 確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする とき, dK(F, G) ≤ dD(µ, ν) ≤ 2dK(F, G) (3) が成立. 29
  • 34. Prokhorov-L´evy on R Fact 3 確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする とき, dL(F, G) ≤ dP(µ, ν) が成立 (Huber, 1981). 30
  • 35. Prokhorov-Discrepancy I Theorem 1 Ω を任意の距離空間, ν を ν(Bε) ≤ ν(B) + ϕ(ε), ∀B : ball on Ω を満たす任意の確率測度とする. ここで, ϕ は右連続な関 数とする (任意の ball を ε だけ膨らませた ball の体積の 増え方は, ある右連続関数で記述される). このとき, dP(µ, ν) = x を満たす任意の確率測度 µ に対して, dD(µ, ν) ≤ x + ϕ(x) が成立. すなわち, dD(µ, ν) ≤ dP(µ, ν) + ϕ(dP(µ, ν)) 31
  • 36. Prokhorov-Discrepancy II Example 1 ν として S1 または R 上の一様分布をとる (ν = U). この とき, ϕ(x) = 2x ととると, dD(µ, U) ≤ 3dP(µ, U) が成立. (proof) ν(Bx) ≤ ν(B) + ϕ(x) より, µ(B) − ν(Bx) ≥ µ(B) − ν(B) − ϕ(x) が成立. dP(µ, ν) = x ならば, ∀˜x > x に対して, µ(B) − ν(B˜x) ≤ ˜x が成立 (上式を満たす ˜x の inf が dP). 32
  • 37. Prokhorov-Discrepancy III (proof つづき) 2 つの不等式を合わせると, µ(B) − ν(B) − ϕ(˜x) ≤ ˜x となり, B に関して sup をとると, sup B (µ(B) − ν(B)) ≤ ˜x + ϕ(˜x) (4) を得る. ここで, ν(B) − µ(B) = 1 − ν(Bc ) − (1 − µ(Bc )) = µ(Bc ) − ν(Bc ) より (Bc は B の補集合), sup B (ν(B) − µ(B)) = sup Bc (µ(Bc ) − ν(Bc )) ≤ ˜x + ϕ(˜x) (5) が成立. 33
  • 38. Prokhorov-Discrepancy IV (proof つづき) (4) と (5) 及び supB ≤ supB,Bc より, dD(µ, ν) ≤ ˜x + ϕ(˜x) を得る. 右辺で ˜x ↘ x とすれば, 所望の結果を得る (ϕ は右 連続だから, ϕ(x) = lim ˜x↘x ϕ(˜x) は存在). 2 34
  • 39. Prokhorov-Wasserstein I Theorem 2 Ω が完備可分な距離空間のとき, (dP)2 ≤ dW ≤ (diam(Ω) + 1)dP が成立. (proof) J を確率変数 X, Y の同時分布とするとき, EJ[d(X, Y)] ≤ ε × Pr(d(X, Y) ≤ ε) + diam(Ω) × Pr(d(X, Y) > ε) = ε × (1 − Pr(d(X, Y) > ε)) + diam(Ω) × Pr(d(X, Y) > ε) = ε + (diam(Ω) − ε) × Pr(d(X, Y) > ε) が成立 (ε を実現値として期待値を書き, 上からバウンド). 35
  • 40. Prokhorov-Wasserstein II dP(µ, ν) ≤ ε であるとき, Prπ(d(X, Y) > ε) ≤ ε を満たす π ∈ Π(µ, ν) がとれる (Huber, 1981). このとき, EJ[d(X, Y)] ≤ ε + (diam(Ω) − ε ≤diam(Ω) )ε ≤ (diam(Ω) + 1)ε が成り立つから, π ∈ Π(µ, ν) に関する inf をとれば, dW ≤ (diam(Ω) + 1)dP が成立 (主張の右側の不等号). 36
  • 41. Prokhorov-Wasserstein III 一方で, ε を dW(µ, ν) = ε2 となるようにとると, Markov の 不等式 (Pr(|X| > a) ≤ 1 a E[|X|]) より Pr(d(X, Y) > ε) ≤ 1 ε EJ[d(X, Y)] ≤ 1 ε × ε2 = ε が成立. Lemma 1 (Strassen’s theorem) ∀B ⊂Borel Ω に対して, Pr(d(X, Y) > ε) ≤ ε ⇐⇒ µ(B) ≤ ν(Bε) + ε. Lemma 1で ε の inf をとれば, 所望の結果を得る: dP ≤ ε ⇒ (dP)2 ≤ ε2 = dW. 2 37
  • 42. Prokhorov-Wasserstein IV Remark 3 • Ω が非有界のとき, 定理のようなバウンドは不成立. Example 2 (Theorem 2 の反例 (Dudkey, 1989)) Ω = R とし, Pn := (n − 1)δ0 + δn n とおくと, dP(Pn, δ0) → 0 as n → ∞ だが, dW(Pn, δ0) = 1, ∀n となる. • Theorem 2の特別な場合として, (Ω, d) が完備可分距 離空間で d ≤ 1 のとき, 以下が成立  (Huber, 1981): (dP)2 ≤ dW ≤ 2dP. 38
  • 43. Wasserstein-Discrepancy I Theorem 3 Ω が有限集合のとき, dmin × dD ≤ dW が成り立つ. ここで, dmin = minx̸=y d(x, y) である. Remark 4 この定理の左辺は, Ω が無限集合のとき, dmin をいくらで も小さくできる場合があり, 確率分布間の距離の比較と しては情報がほとんどないことがある (Theorem 4の節 も参照). 39
  • 44. Total variation-Discrepancy Discrepancy はすべての ball に関する sup であり, total variation はすべての可測集合に関する sup であるから, 明らかに dD ≤ dTV が成り立つ (後者の方が sup をとる範囲が広い). Remark 5 離散分布 · 連続分布どちらの状況でも, dTV=1 = 1 かつ dD をいくらでも小さくできる場合があるため, 逆向き (dTV ≤ dD) は言えない. 40
  • 45. Total variation-Prokhorov Ω が距離空間のとき, µ, ν ∈ P(Ω) に対して, dP ≤ dTV が成立 (Huber, 1981). 41
  • 46. Wasserstein-Total variation I Theorem 4 次の bound が成り立つ: dW ≤ diam(Ω) × dTV. Ω が有限集合のとき, Theorem 3 と同様の bound が成立: dmin × dTV ≤ dW. Remark 6 Ω が無限集合のとき, Theorem 3と同様に dmin をいくら でも小さくでき得るので, less information な可能性が ある. 42
  • 47. Wasserstein-Total variation II (proof) 最初の不等式は, general な不等式 d(X, Y) ≤ 1X̸=Y × diam(Ω) に対して, 両辺で coupling measure に関する inf をとると 得られる (TV distance における (1) による). 逆向きの不等 式は, d(X, Y) ≥ 1X̸=Y × min a̸=b d(a, b) の両辺で coupling measure に関して inf をとれば OK. 43
  • 48. Hellinger-Total variation Fact 4 (LeCam, 1969) d2 H 2 ≤ dTV ≤ dH 44
  • 49. Separation distance-Total variation Fact 5 (Aldous & Diaconis, 1987) dTV ≤ dS 逆は一般に成り立たない. (∵) µ, ν をそれぞれ {1, ..., n}, {1, ..., n − 1} 上の一様分布と すると, dTV(µ, ν) = 1 n ≤ dS(µ, ν) = 1 2 45
  • 50. Relative entropy-Total variation Fact 6 (Kullback, 1967) Ω が可算空間のとき, 2d2 TV ≤ dI 46
  • 51. Relative entropy-Hellinger Fact 7 (Reiss, 1989) d2 H ≤ dI 47
  • 52. χ2 -Hellinger Fact 8 (Reiss, 1989) dH ≤ √ 2d 1/4 χ2 . さらに, µ が ν に対して絶対連続であれば, dH ≤ d 1/2 χ2 が成立. 48
  • 53. χ2 -Total variation Fact 9 可算空間 Ω において, Cauchy-Schwarz の不等式から, dTV(µ, ν) = 1 2 ∑ ω∈Ω |µ(ω) − ν(ω)| √ ν(ω) √ ν(ω) ≤ 1 2 √ dχ2 (µ, ν) が成立. Remark 7 Ω が連続な空間の場合でも, µ が ν に対して絶対連続で あれば同様の結果が成立 (Reiss, 1989). 49
  • 54. χ2 -Relative entropy I Theorem 5 dI(µ, ν) ≤ log(1 + dχ2 (µ, ν)) が成り立つ. 特に, dI ≤ dχ2 (proof) log の concavity より, Jensen の不等式を用いると dI(µ, ν) = ∫ Ω f log f g dλ ≤ Jensen log (∫ Ω f g fdλ ) = log ( 1 + dχ2 (µ, ν) ) ≤ dχ2 (µ, ν) が成立. 50
  • 55. χ2 -Relative entropy II (proof つづき) ここで, 2 番目の等号は以下による: dχ2 (µ, ν) = ∫ Ω (f − g)2 g dλ = ∫ Ω ( f g f − 2f + g ) = ∫ Ω f g fdλ − 2 ∫ Ω fdλ =1 + ∫ Ω gdλ =1 = ∫ Ω f g fdλ − 1. また, 最後の不等号は, log(x + 1) ≤ x から従う. 2 Remark 8 Diaconis & Saloff-Coste (1996) による bound: dI(µ, ν) ≤ dTV(µ, ν) + 1 2 dχ2 (µ, ν) 51
  • 56. Weak Convergence I • Figure 1 のダイアグラムは, 個々の metric 間の関係 (bound) を導出するだけでなく, 確率測度空間に誘導 される位相の関係も示している. • 例えば, Hellinger metric と Total variation の間の相 互の矢印 H ⇆ TV は, これら 2 つの metric が誘導す る位相が同値であることを示す. • また, Prokhorov や L´evy は弱位相を距離付けするが, 他のどの metric がどのような base space 上で同様 に弱位相を距離付けするかを次の定理にまとめる. 52
  • 57. Weak Convergence II Theorem 6 • P(R) に対して, L´evy は弱収束を距離付けする. また, discrepancy や Kolmogorov は L´evy の upper bound を与える ((2), (3) 式参照) ので, L´evy を通して弱収束 を誘導する. さらに, discrepancy と Kolmogorov は µ が R 上のルベーグ測度に対して絶対連続のとき, 弱収 束 µn → µ を距離付けする. • Ω が可測空間のとき, Prokhorov は弱収束を距離付け する. また, Wasserstein による収束は弱収束を誘導す る. さらに, Ω が有界であれば, Wasserstein は弱収束 を距離付けする (Prokhorov の upper bound より). 53
  • 58. Weak Convergence III Theorem 7 (つづき) • 次の metric による収束は弱収束を誘導する: • Hellinger • separation • relative entropy • χ2 • Ω が有限かつ有界のとき, total variation と Hellinger は弱収束を距離付けする. 54
  • 60. Way Wasserstein distance? I Wasserstein は弱収束を距離付けする distance measure 他の distance measure との関係 (tightness) • Wasserstein ≤ (diam(Ω) + 1)× Prokhorov • Wasserstein ≤ diam(Ω)× Total variation • Wasserstein ≤ √ 2 × diam(Ω) × KL div. Key Inequality (Csisz´ar-Kullback-Pinsker) For p, q ∈ P(Ω), W1(p, q) ≤ diam(Ω)∥p − q∥TV ≤ √ 2diam(Ω)KL(p||q) 55
  • 61. Way Wasserstein distance? II Domain adaptation の文脈では... Wasserstein distance を用いるメリット 1. 2 つの分布のサポートに overlap がない場合でも, meaningful な距離を与えてくれる (KL などの f-divergence は, 分布の比が発散するのでダメ). 2. 分布間の距離だけでなく, “どう近づければ良いか?” という方法も輸送写像として同時に与えてくれる. 3. データの位相的性質を保存する (輸送写像の連続性?) 4. 汎化誤差の bound が他の metric よりも tight. ref Courty, N. et al. [2017] “Optimal transport for domain adaptation.” 56
  • 62. Way Wasserstein distance? III Domain adaptation を adversarial training (Wasserstein GAN) として実現できる : inf fg W1(PhS , Pht ) = inf fg sup ∥fw∥L≤1 EPxs [fw(fg(x))] − EPxt [fw(fg(x))] • Pxs , Pxt は source, target のデータ分布 • fw は discriminator (Wasserstein dist. の推定を行う) • fg は generator (source と target の特徴抽出を行う) ref Shen, J. et al. [AAAI2018] “Wasserstein Distance Guided Representation Learning for Domain Adaptation” 57