Disentanglement Survey:Can You Explain How Much Are Generative models Disentangled?

Disentanglement Survey
Hideki Tsunashima(@maguroIsland)
1Kogakuin University, AIST
Can You Explain How Much Are
Generative models Disentangled?

自己紹介
2
綱島秀樹(@maguroIsland)
-所属
工学院大学修士課程2年-陳研究室
産総研(AIST) Research Assistant
-研究テーマ
生成モデルの計算量削減、画像生成
-趣味
筋トレ、アメフト、読書、音楽ゲーム

※注意※
3
⚫ 2019年10月現在の情報が元のサーベイ資料です
⚫ 数式は簡略化のため、一部ロス形式で記述をしま
すので、元の数式を確認したい人はリファレンス
を参照してください
⚫ 沢山の論文の紹介ではなくDisentanglementの
系譜を俯瞰的に見るサーベイとなっています
(最後の系統ごとに論文リストを載せます)
⚫ スライドは私のtwitterに載せているので、そこ
から飛んでご確認ください→ @maguroIsland

画像生成モデル巨人
VAE(おさらい)
4
VAE-based/確率論
⚫ 画像を圧縮された表現zに
エンコード

VAE(おさらい)
5
VAE-based/確率論
⚫ 画像を圧縮された表現zに
エンコード
⚫ zが事前分布(e.g. 正規分布)
に従うようにする

VAE(おさらい)
6
VAE-based/確率論
⚫ 画像xを圧縮された表現zに
エンコード
⚫ zが事前分布(e.g. 正規分布)
に従うようにする
⚫ zからxを復元
潜在変数zを正規分布からサンプ
リングすることで色々な画像を
生成可能

ディスエンタングルメント
7
• Disentanglement＝もつれの解け
• Entanglement＝もつれ
ディスエンタングルメントされた表現とは一つの
潜在ユニットは一つの生成因子に対して敏感であり、
その他の因子に影響を及ぼさない表現と定義される。
Yosua Bengio
• ディスエンタングルメントの定義

ディスエンタングルメント
8
ディスエンタングルメントされた表現とは一つの
潜在ユニットは一つの生成因子に対して敏感であり、
その他の因子に影響を及ぼさない表現と定義される。
• 1つの潜在変数で一つの因子へ変化を及ぼす
• →直感的に解釈可能な因子に分解

Contents
9
Disentanglementの系譜、尺度、応用
i. ディスエンタングルメントの系譜
ii. 式分解戦国時代
iii. ディスエンタングルメントの評価尺度
iv. Go Beyond Disentanglement
v. メタサーベイ

Disentanglementの歴史
10
数式分解
Metric提案
InfoGAN
爆誕！
β-VAE
爆誕！ Disentanglementの
カンブリア爆発
Disentanglementの応用
両者
統一の
流れ

生成モデルの教師なしDisentanglementの風雲児
“InfoGAN”と”vanillaのGAN”の相違点
⚫ Generator(G)の入力に潜在コードc(ベクトル形式)を追加
⚫ Discriminator(D)はreal/fake判定だけでなく
潜在コードcの推論を行う
⚫ Gの入力cとDの推論結果が一致するよう訓練
→相互情報量の最大化
InfoGAN(1/6)
11
GAN-based/情報理論

相互情報量とは
2つの分布AとBがあった際、AとBが独立のときは相互情報量は
最低、AとBが完全に相互に影響するときは相互情報量は最大
相互情報量はAとBの依存関係を表している
InfoGAN(2/6)
12

“InfoGAN”と”vanillaのGAN”の相違点
⚫ Gの入力cとDの推論結果が一致するよう訓練
→相互情報量の最大化
c(ベクトル形式)により固有の特徴表現が獲得される
(c1なら明るさ、c2なら回転など)
InfoGAN(3/6)
13

InfoGAN(4/6)
14
各離散コードに固有の表現
としてDisentanglement
されている

InfoGAN(5/6)
15

InfoGAN(5/6)
16

“InfoGAN”の問題点
⚫ 訓練が安定せず、ハイパラ調整にかなりの職人芸を要する
e.g.)
CelebAの際の入力ノイズの次元数は228(!?)
MNISTの際の入力ノイズの次元数は74(!?)
角度をDisentanglementするにはLRは2e-4
光量をDisentanglementするにはLRは8e-4(!?)※
InfoGAN(6/6)
17
※ この次元数やLRに合わせないだけで訓練が崩壊したり、表現がEntanglement
する（発表者の実体験。もうやりたくない)

VAEベースの教師なしDisentanglementの風雲児
“VAE”と”β-VAE”の相違点
⚫ KLダイバージェンス(KLD)
に重み係数βを追加
各潜在変数がそれぞれ正規分布に
落ちるよう強く制約をかける
ことで各潜在変数が独立になる
β-VAE(1/4)
18[2] Yosua Bengio et al. hogehoge
[5] Yosua Bengio et al. hogehoge
VAE-based/確率論

ℒ = 𝔼 𝑞φ(𝑧|𝑥) 𝑙𝑜𝑔𝑝θ (𝑥|𝑧) − 𝐷 𝐾𝐿 𝑞φ 𝑧 𝑥 ||𝑝(𝑧)
β-VAE(2/4)
19
変分下界(Lower Bound)
VAEにおいて最大化すべき
目的関数
パラメータθのNN(Decoder)で再構成
する分布をパラメータΦのNN (Encoder)
で期待値を取った項
要するにやることは期待値の最大化
(=エンコードしたzを使ってxを完璧に再構
成する)なので、再構成誤差の最小化の項
VAE-based/確率論

β-VAE(2/4)
20
パラメータΦのNN(Encoer)でxから
推定したエンコードしたzの分布と
事前に選んでおいた分布とのKLDを
取る項
要するに事前分布に推定した分布を
近づけたいので、KLDの最小化の項
VAE-based/確率論

β-VAE(2/4)
21
𝜷𝐷 𝐾𝐿 𝑞φ 𝑧 𝑥 ||𝑝(𝑧)
KLD項に重み係数β(β>1)を
加えることで各潜在変数が
より強く事前分布に従うよう
に制約を加える
VAE-based/確率論

β-VAE(3/4)
22
⚫ VAE
Enganlementして
しまっている
⚫ InfoGAN
変化が乏しい
⚫ β-VAE
変化も豊かで
Entanglementも
あまりない
(すごいぼやけて
いるような...)
VAE-based/確率論

β-VAEの定量的評価
β-VAE(4/4)
23
GT(訓練データ)をスコア100%として
Disentanglement度合を比較する
教師無し
半教師有り
Metricの詳細は後程のDisentanglementの尺度にて
VAE-based/確率論

Contents
24

式分解戦国時代の幕開け、Total Correlation(TC)
“β-VAE”の問題点
⚫ KLD項に重みを掛けると再構成誤差が軽視される
→画像がぼやけやすくなる
再構成誤差に影響を与えないようにしよう！
FactorVAE(1/5)
25[6] Yosua Bengio et al. hogehoge
InfoGANは訓練が安定せず実用的ではない
VAE-based/確率論、情報理論

β-VAEの再構成誤差が増加する原因とは？
ℒβ−𝑉𝐴𝐸 =
1
𝑁
σ 𝑛=1
𝑁
ℒ 𝑟𝑒𝑐𝑜𝑛𝑠𝑡 +β(−𝐼 𝑥; 𝑧 +ℒ 𝐾𝐿 𝑞 𝑧 , 𝑝 𝑧 )
FactorVAE(2/5)
26
KLD項(分布の不一致度)
ここではz単体の分布と事前
分布の不一致度
この項の最小化で各潜在変数
は独立となる
1
𝑁
σ 𝑛=1
𝑁
ℒ 𝑟𝑒𝑐𝑜𝑛𝑠𝑡 + βℒ 𝐾𝐿 (N:minibatch)
KLDのデータ分布での期待値を分解
1
𝑁
σ 𝑛=1
𝑁
𝐴 = 𝔼 𝑝(𝑥) 𝐴
MI項(Mutual Information：相互情報量)
2分布間の依存関係を表している
ここでは入力xと潜在変数zの依存関係
この項の最大化でxとzの対応関係が獲得される
既存の損失関数は𝔼 𝑝(𝑥) ℒ 𝐾𝐿 を最小化しようとして
たので、相互情報量も最小化してしまっていた！
→xからzへの情報損失＝再構成誤差の増加

FactorVAE(2/5)
27
1
𝑁
σ 𝑛=1
𝑁
1
𝑁
σ 𝑛=1
𝑁
しかし、、、
相互情報量は直接計算することが不可能なため、この式は解けない
では、一体どうすれば、、、
1
𝑁
σ 𝑛=1
𝑁

ℒ 𝐹𝑎𝑐𝑜𝑟𝑉𝐴𝐸 =
1
𝑁
σ 𝑛=1
𝑁
ℒ 𝑟𝑒𝑐𝑜𝑛𝑠𝑡 + ℒ 𝐾𝐿 +γℒ 𝑇𝐶
FactorVAE(2/5)
28
1
𝑁
σ 𝑛=1
𝑁
1
𝑁
σ 𝑛=1
𝑁
TCの制約項(2分布間の独立性)
相互情報量があまり小さくしないようにし、それとは
別に潜在変数同士が独立になる制約項を追加
この項を最小化することで潜在変数が独立になる！
→Disentanglementのみが促される！
1
𝑁
σ 𝑛=1
𝑁

FactorVAE(3/5)
29
FactorVAEはいろんな因子
に分解されててGood！
ぼやけも少ない！

FactorVAE(4/5)
30
あれ、、、FactorVAE分解
できてる因子少なくない？※
※ FactorVAEを参照する論文は沢山あるが、どの論文もFactorVAEは顔以外の
データセットでは因子分解が苦手な傾向あり

FactorVAEの定量的評価
FactorVAE(5/5)
31
FactorVAEは再構成
誤差を抑えながらも
スコアが高い！
Disentanglementと
再構成精度の両立！
Metricの詳細は後程のDisentanglementの尺度にて

式分解をし続けろ！式分解戦国時代の行方は
数々の論文が式分解を続け、時は戦国状態
HFVAE(1/4)
32
式は色々分解
されるんだなと
いう感じで見て
いただければ
大丈夫です

数々の論文が式分解を続け、時は戦国状態
HFVAE(2/4)
33
VAE
まだ分解するの！？

入力xの太さを変える潜在変数zを変化させたときの実験結果
HFVAE(3/4)
34
HFVAEは
Entanglement
していなくてGood!

Zero-shotでDisentanglementの表現を獲得！
HFVAE(4/4)
35
段々細くなる7のデータセットの
一部を訓練させない(pruned)
訓練させなかったデータ(pruned)
の部分までDisentanglement
された表現を獲得できている！
→Zero-shot Generarization
俺たちの戦いは終わらない!!

Contents
36

Disentanglementの評価尺度の登場！
Disentanglement Metric Scoreについて
⚫ β-VAEにて提案された初のDisentanglementの評価尺度
⚫ 分解される因子(e.g. 回転、太さ)があらかじめわかっている
ときのみ使用可能
⚫ ネットワーク(VAEなど)から生成した画像がどの因子を保持
しているのかを線形分類器でクラス分類する手法
→正しい因子に分類されればOK！
Disentanglement Metric Score
37
Metric

Disentanglement Metric Scoreを正しい尺度へ
Disentanglement Metric Scoreには問題が、、、
⚫ iteration数、重み初期化などのハイパラに線形分類器が敏感
⚫ 線形分類器に通してしまうと直感的ではない
(説明性の観点でも分類器に通すのは厄介)
⚫ K個中K-1個の因子のDisentanglementでスコア100%が出る
→致命的なバグ
Improved Disentanglement Metric Score(1/3)
38
Metric

Disentanglement Metric Scoreを改良した評価尺度について
⚫ FactorVAEで提案された評価尺度
⚫ 分解される因子(e.g. 回転、太さ)があらかじめわかっている
ときのみ使用可能
⚫ クラス分類ではなく多数決で因子を決定することでハイパラ
に敏感でなくなった
⚫ 旧手法に比べてトータルの速度は210倍～1800倍！！※
(旧手法:30分、本手法:数秒)
39
Metric
※ 旧手法はクラス分類器の訓練が必要なので遅い

40
Metric
1つの因子を固定したL個の画像を生成し、
訓練済みEncoderで潜在変数zを獲得します

41
Metric
潜在変数zの分散を求める
因子が完全にDisentanglementされている
場合はその因子の分散は0となる

42
Metric
分散が最も小さい因子の潜在変数zの次元を求める

43
Metric
最終的に青枠の処理をV回(Vは青枠の繰り返し回数)
行い、多数決を取ることでどこがDisentanglement
されているかを求める
→分類器を使わないので、ハイパラに左右されにくい！

乱立するDisentanglement Metric
⚫ SAP (Separated Attribute Predictability)
線形回帰を行うことでハイパラに依存しないMetricの提案
(Factor VAE Metric以前に登場)
⚫ Modularity
ModularityとExplicitnessを評価
Modularity：1つの因子に分解されているか
Explicitness：ロジスティック回帰で容易に回帰できるか
→容易に回帰可能なら説明性も高いという解釈
その他のDisentanglement Metric
44
Metric

⚫ DCI Disentanglement (論文中では名称なし)
Disentanglement、Completeness、Informativenessを評価
Lasso回帰またはランダムフォレスト分類器を用いる
Disentanglement：因子分類において有益な潜在変数
Completeness：分類された因子のエントロピーの差
→どれだけ因子分解がしっかり行われているか
Informativeness：分類器の予測誤差
→正しくDisentanglementできているか
⚫ MIG (Mutual Information Gap)
相互情報量の最も高い因子と次点の因子の差※
現在最新のDisentanglementのMetric
※ 相互情報量は高いほどDisentanglementが出来ている
45
Metric

結局どれがいいの？？
46
Metric
問題設定次第！！

式分解戦国時代と評価尺度乱立の終止符！？
Disentangling Disentanglement(1/4)
48
VAE-based
Disentanglementの新尺度
新目的関数の提案
State of the Art！！
無限ループ、、、
Disentanglementの新問題設定

Disentanglementの一般化へ、本来やりたいこととは？
49
VAE-based
複雑なデータは潜在空間も同様に複雑であるはず
1. 1つの潜在変数の独立で済む因子(e.g. 太さ)
2. 潜在変数がセットで独立の必要がある因子(e.g. 人種)
この二つを満たし、潜在空間の構造を正しく抽出するべきである

1. Disentanglementされた潜在変数を直感的に扱う
2. 潜在空間(潜在変数zが張る空間)の構造を正しく抽出する
50
VAE-based

1. Disentanglementされた潜在変数を直感的に使う
51
VAE-based
既存手法は(1)のみに注力しており、(2)に着目していない

1. Disentanglementされた潜在変数を直感的に使う
52
VAE-based
(2)も同時に考えていくことでDisentanglementを一般化
Decomposition(分解)という語の提唱
β-VAEに(2)に対応する制約項を追加することでDecomposition
評価はFactorVAEのMetricを使用
※ 式や式の意味の詳細はここでは省略します

53
VAE-based
しかし、まだトイデータの域を出ていない
今後のDecompositionに期待大！！

⚫ InfoGAN、β-VAEから始まるDisentanglement
⚫ 欠点を補うため、数々の理論的解析が行われてきた
⚫ 数々の問題設定ごとのMetricと新目的関数
⚫ Disentanglementの一般化、Decompositionの提唱
このセクションのまとめ
54
VAE-based

Contents
55

Contents
56
 Disentanglementの各タスクへの応用
 ICLR2020速報 in Disentanglement

変更したい属性のみ変換できるネットワーク
57
応用研究
赤枠の属性を変化させることで
入力画像の属性を変化させる
FadNet(1/2)

FadNet(2/2)
58
応用研究
エンコードした潜在変数E(x)と属性y(e.g. 髪の色、口の形)
を基に再構成することで属性を好きに変えられるようにしたい
E(x)から属性の情報を排除する必要がある

59
応用研究
Discriminatorに属性を判断させないように学習を進める
この処理により潜在変数E(x)は属性不変の特徴となる
FadNet(2/2)

出力画像を用いず潜在変数を用いてDisentanglementするので、
NLPや音など他のドメインにも適用可能！
60
応用研究FadNet(2/2)

姿勢情報と人物特徴を分離しての姿勢転写
赤枠と青枠をペアにして姿勢特徴と人物特徴を分離する
61
応用研究FD-GAN(1/2)

姿勢情報と人物特徴を分離しての姿勢転写
62
応用研究FD-GAN(2/2)
既存手法[18, 19]に対して
FD-GANは正しく転写できている
しかし、まだまだ鞄は課題ありか

Disentanglement表現を自由自在に操る巨人
63
応用研究
圧倒的高解像度
不自然さのなさ
段階ごとのDisentanglement
StyleGAN(1/3)

64
応用研究StyleGAN(2/3)
低
高
解
像
度
解像度の低いところにスタイルを移し
たい画像を挿入すると大きな特徴変化
解像度の高いところにスタイルを移し
たい画像を挿入すると細かな特徴変化
解像度の中間にスタイルを移したい
画像を挿入すると中間の特徴変化
※ 論文中は数々の手法やテクニックが提案されている

65
低解像度で画像を挿入
すると大きな特徴変化が
(e.g. 眼鏡、性別)

66
中解像度で画像を挿入
すると半ばの特徴変化が
(e.g. 顔の雰囲気)

67
高解像度で画像を挿入
すると細かな特徴変化が
(e.g. 髪の色、肌の色)

68
Disentanglementされた
特徴表現を獲得

ICLR2020のDisentanglementの論文は36本！
気になったものをピックアップ！！
1. Unsupervised Distillation of Syntactic Information from
Contextualized Word Representations
教師なしで文構造と文の意味のDisentanglementを達成
文構造が同じで意味が異なる構文を正しく分けれると主張
69
ICLR 2020ICLR2020速報 in Disentanglement

2. Embodied Multimodal Multitask Learning
オブジェクトや位置関係をディスエンタングルメントすることで
身体を保持するエージェントがVQAを可能としている
70

3. Disentangling Improves VAEs' Robustness to
Adversarial Attacks
Adversarial Examplesへの頑健性をディスエンタングルメント
された表現で向上させるという論文
71

Contents
72

Disentanglementにて注目すべき研究者、研究機関
＜研究者＞
✓ Irina Higgins：DeepMind
✓ Alessandro Achille：University of California, Los Angeles
＜研究機関＞
✓ DeepMind
メタサーベイ
73
研究者, 研究機関

β-VAEの生みの親、Disentanglementのトップ研究者
Irina Higgins
メタサーベイ
74
⚫ DeepMind Research Scientist
⚫ Neuroscienceチーム所属
⚫ Disentanglementの論文を数多く
生み出す
⚫ Higginsさんが共著に入っている
論文は良論文！

神経科学と機械学習の融合、生物模倣のAIへ
Alessandro Achille
メタサーベイ
75
⚫ UCLA PhD student
⚫ Computer Science Department
⚫ 神経科学的知見を機械学習に盛り
込むことで独創的な論文を執筆
⚫ DeepMindインターンでは
NeuroscienceチームでNeurIPSに
通している(Higginsさんも共著)

Googleが買収したトップAI Research集団
メタサーベイ
76
⚫ 数多くのResearcherを雇い、トップカンファレンスに通
し続けるトップレベルの研究者集団
⚫ Disentanglementの論文はNeuroscienceチーム
だけでなく他のチームからの投稿されている
(e.g. FactorVAE)
⚫ DeepMindの与える影響は強化学習だけに留まらない

⚫ Disentanglementは様々な数理的解釈とMetricが
提案されてきたが、一般化が始まった
⚫ 応用研究では直感的な解釈の因子に分解して利用
する研究が多い
⚫ Disentanglementは人間の直感的解釈という位置
づけからも神経科学分野の研究者が強い
まとめ
77

⚫ 本発表用スライドは私のtwitterに載せています
→ @maguroIsland
⚫ 内容拡充をした完全版はCVPRの関係で12月にアップ
する予定です
完全版公開について
78

Disentanglement Survey:Can You Explain How Much Are Generative models Disentangled?

Recommended

More Related Content

What's hot (20)

Disentanglement Survey:Can You Explain How Much Are Generative models Disentangled?