SlideShare a Scribd company logo
Ishikawa Watanabe Lab
THE UNIVERSITY OF TOKYO
http://www.k2.t.u-tokyo.ac.jp/
猫でも分かる
Variational AutoEncoder
2016/07/30
龍野 翔 (Sho Tatsuno)
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
今回の内容
• Variational Auto-Encoderの解説
– 生成モデルそのものの概要
– Variational Auto-Encoder(VAE)のなるべく噛み砕いた解説
– その他生成モデル論文のざっくりした紹介
• 説明すること/しないこと
– 説明すること
» 生成モデルの簡単な概要と事例
» Variational AutoEncoderの構造と数式的・直感的理解
– 説明しないこと
» 生成モデルのその他のアルゴリズムの詳細(LDAとか)
» Deep Learningの基礎(Back Propagation・SGD等)
» 既存の最適化手法の詳細(MCMC・EMアルゴリズム等)
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
紹介元論文
• Auto-Encoding Variational Bayes
– Author: D. P. Kingma, 2013
– URL: https://arxiv.org/pdf/1312.6114.pdf
– Variational Auto-Encoderを最初に提唱した論文
• Tutorial on Variational Autoencoders
– Author: Carl Doersch, 2016
– URL: https://arxiv.org/abs/1606.05908
– ニューラルネットによる生成モデルVariational Autoencoder(VAE)の
紹介
» 変分ベイズの前提知識が不要
» 制約付きVAEであるConditional Variational Autoencoder(CVAE)
についても紹介
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
識別モデルと生成モデル
• 通常の機械学習は識別モデル
– 各々を分けるための線を引く(識別する!)
• 生成モデルは識別(のみ)ではなく,範囲を考える
識別モデル 生成モデル
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
生成モデルって何?
• 生成モデル:観測データが得られる確率分布の推
サイコロを2回投げた時の
目の和の分布P(X)
実際にサイコロを2回振ってみた時
こいつを求めたい
P(X|θ)
分布を仮定->分布の裏側にあるパラメータθの最適化
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
分布が分かると何が嬉しいのか
• 識別タスクなどに利用可能
– Ex) Naive Bayes:迷惑メールの判別
各単語が迷惑メールに含まれる
確率を元に迷惑メールの判別
を行う
単語の「分布」をメールの
「判別」に利用
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
天気 激安 無料 食事
迷惑メールの確率
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
既存の生成モデルの応用例
• 文章分類
– NaiveBayes
» 迷惑メールかどうかの分類など
– トピックモデル
» 文章のトピックを生成(政治の話・スポーツの話etc…)
• 異常値検出
– ガウス混合分布
» 不正検出・侵入検出
– 時系列モデル
» ウイルス・ワーム検出
この辺の詳細説明は省略
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
画像の生成モデル
• 生成モデル
– 画像の分布を求めたい
» データを元に未知のデータを作り出したい
» データが持つ抽象的な表現を捉えたい
• 高次元なデータXが存在する確率分布P(X)を求め
たい
Xが存在しそうな領域
例えば画像とか文章とか
画像らしい画像・文章らしい文章といえる部分を
突き止めたい
画像の筆跡や数は違うが全て同じ”数字”
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
多様体論
• 下の二つの画像は色だけ見ると近しいが、明らかに違うも
のである
• 画像同士の間により低い次元での潜在的な意味が存在する
と仮定する
– ネコ・寿司
猫 寿司
色だけ見ると識別困難
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
意味のある生成を
• 同じ意味の画像の認識
– 画像間の潜在的な要素(潜在変数)を考える
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
潜在変数
• 例えば数字の潜在的な意味を考える
– 筆跡?文字(3なのか5なのか)?から画像ができる
潜在変数の分布
潜在変数
の分布
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
目的
• 画像の潜在空間の獲得と画像のバリエーション生成
顔の生成 数字の生成
ここから先は数字を例にした解説を行う
表情・顔の造形が潜在変数? 文字・筆跡が潜在変数?
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
既存の生成モデルの問題点
1. データ構造への強い仮定やモデルに強い近似が必要
– こちらで何らかの分布を設定する必要性
– 設定した分布にモデルが対応する必要性
2. 時間のかかる方法が必要
– MCMC等、複数回サンプリングする必要性
詳細は省略
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
ニューラルネットの利用
• 単純なニューラルネットワークの例
1. y = f2(w2x2+b2)=f2(w2(f1(w1x1+b1))+b2)=…
->畳み込みの形でほぼ任意の関数表現が可能:モデルの制約を緩和可能
2. SGDを使えば1サンプルずつ最適化が可能
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
生成モデル最適化の前提
• そもそも論
– しかし,そのままpθを求めるのは困難
» 入力(潜在変数z)に対応する答えが不明
こいつを求めたい(Zの元でXが生成される確率分布)
出力潜在変数
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
入力から潜在変数zへの分布の仮定
• Encoder
– 潜在変数のガウス分布性を仮定する
入力層(画像) Encoder
多変量ガウス分布からサンプリング
μ
σ
z
潜在変数
2~50次元くらい
が多い
N次元ガウス分布の
平均・分散
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
分布の母数の妥当性
• μとΣの決め方に妥当性はあるのか
– どちらがμ・Σでも良い:μとΣが最適となるように各層を最適化する
どちらでも大丈夫(予めμ・Σが定義づ
けられているわけではない)
後でμ・Σに対応するように学習させる
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Variational AutoEncoder
• Decoder
– こちらはzから出力層までにニューラルネットを組めばOK
潜在変数 Decoder
z
出力層(画像)
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Variational AutoEncoder
• Total Structure
入力層 Encoder
潜在変数
Decoder 出力層
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
• 潜在変数は多次元のガウス分布を仮定
– 扱いやすいから
– 今回の場合、潜在変数に文字の筆跡や形を想定->ガウス分布?
潜在変数zに相当する画像Xを生成
潜在変数の仮定
出力画像潜在変数の分布
潜在変数zから画像Xを生成(θは母数)
q(z):pの事前分布として簡単な形(今回は多項ガウス分布)を考える
・z ~ p(z):pの事前分布として簡単な形(今回は多項標準ガウス分布)を考える
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
• 入力->潜在変数の分布を生成
• 潜在変数からのサンプリング->入力に近しい出力の生成
VAEのグラフィカルな理解
潜在変数の分布の生成
潜在変数のサンプリング
入力 出力
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
最適化の必要性
• で、これってどうやって最適化するの?
– 最尤推定:周辺尤度log(pθ(x))の最大化から考える
– 周辺尤度log(pθ(x))は以下のように分解できる
母数θを定めた時に取りうるxの周辺確率が最も高くなるように設定する
一般的な変分下界における数式的な展開
変分下界: θ, φの汎関数
ref) PRML下巻9.4
(p=qの時、等号成立)
pとqを近づけることが目的なので変分下界を最大化する
必要がある
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
変分下界の展開
• 変分下界の展開
– 以下の式変形により、最適にすべき項が導出できる
正則化項:KL Divergence
(Regularization Parameter)
復元誤差
(Reconstruction Error)
この二つの和を最大化すれば良い
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
正則化項:KL Divergence
• KL Divergenceの計算
~N(μ, Σ) ~N(0, I)
ref) 細かい式の導出は原論文のAPPENDIX C) 参照
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
復元誤差:Reconstruction Error
• Reconstruction Errorは以下のように近似できる
• 画像のピクセルを0~1に調整した時にベルヌーイ分布を仮定すると
logp(x|z)は以下のように表すことができる
(yはzの潜在変数を全結合層に通した最終層の変数)
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
• 最適化関数
– KL Divergence: p(z)とq(z|x)の情報的な距離・正則化項:
– Reconstruction error: 入出力の差:
VAEのグラフィカルな理解
潜在変数の分布の生成
潜在変数のサンプリング
入力 出力
潜在変数の事前分布
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
VAE全体のブロック図
学習フェーズ 活用フェーズ
X
正則化項
復元誤差
Decoder(P)
Encoder(Q) Z ~ N(μ, Σ)
サンプリング
最適化
X
Decoder(P)
Z ~ N(μ, Σ)
このZを入力として与える
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
学習フェーズのより詳細な構造
X
Encoder(Q)
Decoder(P)
μ Σ
Sample z ~ N(μ, Σ)
zRegularization Parameter
Reconstruction Error
この形だと誤差逆伝播が使えない!
->サンプリングしている時点で微分の計算が不可
誤差
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Reparametrization Trick
×
*
X
Encoder(Q)
Decoder(P)
μ Σ
Sample ε ~ N(0, I)
z = μ + ε Σ
Reconstruction Error
Sample z ~ N(μ, Σ)  z = μ + ε Σ (sample ε ~ N(0, I))
と書き直すことができる
-> Back Propagationが利用可能
Regularization Parameter
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
zの変換について
• 一次元の場合の簡単な証明
Sample z ~ N(μ, σ)  z = μ + ε σ (sample ε ~ N(0, 1))
εは標準正規分布なので確率密度関数は
と変換できるので代入・周辺化して
次数が2次以上の場合も同様
これは正規分布z~(N(μ, σ))からのサンプリングに他ならない
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
VAEの最適化のフローのまとめ
DNN
DNN
+
・生成時
・訓練時
訓練時のものを利用
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Result
表情の生成 文字の生成
• 潜在空間に対応する画像の生成
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
VAEの結論
• Deep Learningを生成モデルに適用
– 筆跡や表情といった潜在変数の分布を組み込む形を考案し、データ
セットに存在しない自然な画像の生成を可能にした
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
おまけ:AutoEncoder
Encode Decode
OutputInput
・AutoEncoderによる画像の圧縮・再構成
・中間層での画像の抽象表現の獲得
抽象表現→文字の分布?
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Valuational AutoEncoderの実態
Encode Decode
OutputInput
・構造はAutoEncoderの中間層にノイズを入れただけ
・loss関数に正則化項を加えた
・構造,名前は非常に似ているが由来は異なる
+ε
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
生成モデルの論文紹介
• 画像の自動生成
• 3次元モデルの自動生成
• 行動の予測
• (生成モデルではないけどおまけ)DNNを騙す画像の生成
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
教師ありVAE
• Semi-supervised Learning with Deep Generative Models
(14’ M. Welling)
– 教師ありVAE, セミ教師ありVAEの提案
– 同じ筆跡の別の文字などの生成も可能に
Y
labels
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
GAN
• Generative Advisarial Net(14’ I. J. Goodfellow)
– 学習データに似たイメージを作るGenerator
– 学習データかGeneratorが作成したデータか見分けるDiscriminator
» GenratorとDiscriminatorでイタチごっこをする
一番右が近いイメージ
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
LAPGAN
• Deep Generative Image Models using a Laplacian Pylamid of
Adversarial Networks(15’ E. Denton)
– 周波数ごとのGANを作り高解像の画像を生成する手法
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
DCGAN
• Unsupervised Representation Learning with Deep Convolutional
Generative Adversarial Networks(16’ A.Radford)
• GANにCNN, Leaky ReLU, Batch Normalizationを加えた手法
– Leaky Relu: 0以下にも勾配をつけたReLU
– Batch Normalization: バッチごとの平均・分散を用いて正規化
精細な画像,潜在変数のベクトル演算
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
VAEとGANの統合
• Autoencoding beyond pixels using a learned similarity metric
(15’ A. B. L. Larsen)
– VAEの後ろ部分にGANをくっつけたもの
– VAEのreconstructionとGANの精細さを両立
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
文章と画像の統合
• 深層生成モデルを用いたマルチモーダル学習(16’ 鈴木)
– 複数のモダリティ情報を統合
– 例えば,モナリザにsmile要素を加える
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
RNN+VAE
• DRAW: A Recurrent Neural Network For Image Generation
(15’ K.Gregor)
– RNNとVAEを組み合わせて徐々に画像を生成していく手法
– 上に塗っていくイメージ
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
画像圧縮
• Towards Conceptual Compression(16’ K.Gregor)
– Convolutional DRAWを提案し,画像圧縮に応用
– 上からJPEG,JPEG2000,下二つが分散あり・なしのCDRAW
– 圧縮率を上げても自然な圧縮を実現
圧縮率20%
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
Pixelごとの復元
• Pixel Recurrent Neural Networks(16’ A. Oord)
– RNNを用いて近傍のPixel群から周りのpixel群を予測して復元
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
3次元版のVAE
• Deep Convolutional Inverse Graphics Network(15’ TD. Kuulkarni)
– VAEを3次元に拡張
– 人の顔のモデルのバリエーションを生成
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
2次元画像->3次元モデル
• Unsupervised Learning of 3D Structure from Images
(16’ D.J.Rezende)
– 二次元画像から三次元モデルを復元する
– 教師データとしての三次元モデルは一切与えない
2次元画像から復元した3次元モデル
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
運動ベクトルの推定
• An Uncertain Future: Forecasting from Static Images using
Variational Autoencoders (16’ J. Walker)
– 画像と動きのベクトルを学習させて画像のどの部分が動くか予測
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
DNNを騙す画像の生成
• Deep Neural Networks are Easily Fooled: High Confidence
Predictions for Unrecognizable Images(15’ A.Nguyen)
– 元ある識別器を騙す画像を進化論的アルゴリズムにより作成
– 識別精度が高くなるように画像のピクセルをランダムに変化させる
Direct encode Indirect encode
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
終わりに
• まとめ
– 深層生成モデルの中のVAEについての説明
– 画像関連の生成モデル論文の紹介
• 印象
– 生成モデルはここ1年が凄まじい
» VAE・GANの原論文以外はほぼ去年・今年の論文
» DeepMind, OpenAIが参入
» 静止画の生成モデルはかなり行われている印象
– 動画像生成とかはまだまだ
Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/
参考文献
• Introduction to variational autoencoders
– URL: https://home.zhaw.ch/~dueo/bbs/files/vae.pdf
– VAEのスライド
• Deep Advances in Generative Modeling
– URL: https://www.youtube.com/watch?v=KeJINHjyzOU
– Youtubeでの深層生成モデルの解説
• Digit Fantasies by a Deep Generative Model
– URL: http://www.dpkingma.com/sgvb_mnist_demo/demo.html
– VAEのデモ
• LAPGANの解説(スライド)
– 他のGANの話も載っているのでオススメ
– URL: http://www.slideshare.net/hamadakoichi/laplacian-pyramid-of-
generative-adversarial-networks-lapgan-nips2015-reading-nipsyomi
Ad

More Related Content

What's hot (20)

[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 

Viewers also liked (20)

IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
Variational AutoEncoder
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoder
Kazuki Nitta
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
 
現在のDNNにおける未解決問題
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題
Daisuke Okanohara
 
Deep parking
Deep parkingDeep parking
Deep parking
Shintaro Shiba
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
 
類似画像検索APIを作ってみた話
類似画像検索APIを作ってみた話類似画像検索APIを作ってみた話
類似画像検索APIを作ってみた話
K Kimura
 
Iclr2016 vaeまとめ
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめ
Deep Learning JP
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分ける
Kazuaki Tanida
 
自閉症と感情コンピューティング
自閉症と感情コンピューティング自閉症と感情コンピューティング
自閉症と感情コンピューティング
由来 藤原
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニング
Yurie Oka
 
Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較
YumaMatsuoka
 
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
moterech
 
Simple Introduction to AutoEncoder
Simple Introduction to AutoEncoderSimple Introduction to AutoEncoder
Simple Introduction to AutoEncoder
Jun Lang
 
[Dl輪読会]video pixel networks
[Dl輪読会]video pixel networks[Dl輪読会]video pixel networks
[Dl輪読会]video pixel networks
Deep Learning JP
 
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
LINE Corporation
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
koji ochiai
 
Neural Network と Universality について
Neural Network と Universality について  Neural Network と Universality について
Neural Network と Universality について
Kato Yuzuru
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
Variational AutoEncoder
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoder
Kazuki Nitta
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
 
現在のDNNにおける未解決問題
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題
Daisuke Okanohara
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
 
類似画像検索APIを作ってみた話
類似画像検索APIを作ってみた話類似画像検索APIを作ってみた話
類似画像検索APIを作ってみた話
K Kimura
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分ける
Kazuaki Tanida
 
自閉症と感情コンピューティング
自閉症と感情コンピューティング自閉症と感情コンピューティング
自閉症と感情コンピューティング
由来 藤原
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニング
Yurie Oka
 
Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較Autoencoderの実装と愉快な仲間との比較
Autoencoderの実装と愉快な仲間との比較
YumaMatsuoka
 
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
MLaPP 24章 「マルコフ連鎖モンテカルロ法 (MCMC) による推論」
moterech
 
Simple Introduction to AutoEncoder
Simple Introduction to AutoEncoderSimple Introduction to AutoEncoder
Simple Introduction to AutoEncoder
Jun Lang
 
[Dl輪読会]video pixel networks
[Dl輪読会]video pixel networks[Dl輪読会]video pixel networks
[Dl輪読会]video pixel networks
Deep Learning JP
 
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
ベイズ推定とDeep Learningを使用したレコメンドエンジン開発
LINE Corporation
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
koji ochiai
 
Neural Network と Universality について
Neural Network と Universality について  Neural Network と Universality について
Neural Network と Universality について
Kato Yuzuru
 
Ad

Similar to 猫でも分かるVariational AutoEncoder (20)

Rokko チュートリアル
Rokko チュートリアルRokko チュートリアル
Rokko チュートリアル
Computational Materials Science Initiative
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
Masaya Kaneko
 
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
Deep Learning JP
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
Shunsuke Ono
 
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live![part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
KnowledgeGraph
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
Toru Tamaki
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
Akisato Kimura
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA
Akisato Kimura
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crf
Shuyo Nakatani
 
Akira Imakura
Akira ImakuraAkira Imakura
Akira Imakura
Suurist
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
Deep Learning JP
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
T T
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 final
Jiro Nishitoba
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
Preferred Networks
 
バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係
Kento Tajiri
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
Masaya Kaneko
 
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
Deep Learning JP
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
Shunsuke Ono
 
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live![part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
KnowledgeGraph
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
Toru Tamaki
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
Akisato Kimura
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA
Akisato Kimura
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crf
Shuyo Nakatani
 
Akira Imakura
Akira ImakuraAkira Imakura
Akira Imakura
Suurist
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
Deep Learning JP
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
T T
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 final
Jiro Nishitoba
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 
バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係
Kento Tajiri
 
Ad

猫でも分かるVariational AutoEncoder

  • 1. Ishikawa Watanabe Lab THE UNIVERSITY OF TOKYO http://www.k2.t.u-tokyo.ac.jp/ 猫でも分かる Variational AutoEncoder 2016/07/30 龍野 翔 (Sho Tatsuno)
  • 2. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 今回の内容 • Variational Auto-Encoderの解説 – 生成モデルそのものの概要 – Variational Auto-Encoder(VAE)のなるべく噛み砕いた解説 – その他生成モデル論文のざっくりした紹介 • 説明すること/しないこと – 説明すること » 生成モデルの簡単な概要と事例 » Variational AutoEncoderの構造と数式的・直感的理解 – 説明しないこと » 生成モデルのその他のアルゴリズムの詳細(LDAとか) » Deep Learningの基礎(Back Propagation・SGD等) » 既存の最適化手法の詳細(MCMC・EMアルゴリズム等)
  • 3. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 紹介元論文 • Auto-Encoding Variational Bayes – Author: D. P. Kingma, 2013 – URL: https://arxiv.org/pdf/1312.6114.pdf – Variational Auto-Encoderを最初に提唱した論文 • Tutorial on Variational Autoencoders – Author: Carl Doersch, 2016 – URL: https://arxiv.org/abs/1606.05908 – ニューラルネットによる生成モデルVariational Autoencoder(VAE)の 紹介 » 変分ベイズの前提知識が不要 » 制約付きVAEであるConditional Variational Autoencoder(CVAE) についても紹介
  • 4. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 識別モデルと生成モデル • 通常の機械学習は識別モデル – 各々を分けるための線を引く(識別する!) • 生成モデルは識別(のみ)ではなく,範囲を考える 識別モデル 生成モデル
  • 5. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 生成モデルって何? • 生成モデル:観測データが得られる確率分布の推 サイコロを2回投げた時の 目の和の分布P(X) 実際にサイコロを2回振ってみた時 こいつを求めたい P(X|θ) 分布を仮定->分布の裏側にあるパラメータθの最適化
  • 6. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 分布が分かると何が嬉しいのか • 識別タスクなどに利用可能 – Ex) Naive Bayes:迷惑メールの判別 各単語が迷惑メールに含まれる 確率を元に迷惑メールの判別 を行う 単語の「分布」をメールの 「判別」に利用 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 天気 激安 無料 食事 迷惑メールの確率
  • 7. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 既存の生成モデルの応用例 • 文章分類 – NaiveBayes » 迷惑メールかどうかの分類など – トピックモデル » 文章のトピックを生成(政治の話・スポーツの話etc…) • 異常値検出 – ガウス混合分布 » 不正検出・侵入検出 – 時系列モデル » ウイルス・ワーム検出 この辺の詳細説明は省略
  • 8. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 画像の生成モデル • 生成モデル – 画像の分布を求めたい » データを元に未知のデータを作り出したい » データが持つ抽象的な表現を捉えたい • 高次元なデータXが存在する確率分布P(X)を求め たい Xが存在しそうな領域 例えば画像とか文章とか 画像らしい画像・文章らしい文章といえる部分を 突き止めたい 画像の筆跡や数は違うが全て同じ”数字”
  • 9. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 多様体論 • 下の二つの画像は色だけ見ると近しいが、明らかに違うも のである • 画像同士の間により低い次元での潜在的な意味が存在する と仮定する – ネコ・寿司 猫 寿司 色だけ見ると識別困難
  • 10. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 意味のある生成を • 同じ意味の画像の認識 – 画像間の潜在的な要素(潜在変数)を考える
  • 11. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 潜在変数 • 例えば数字の潜在的な意味を考える – 筆跡?文字(3なのか5なのか)?から画像ができる 潜在変数の分布 潜在変数 の分布
  • 12. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 目的 • 画像の潜在空間の獲得と画像のバリエーション生成 顔の生成 数字の生成 ここから先は数字を例にした解説を行う 表情・顔の造形が潜在変数? 文字・筆跡が潜在変数?
  • 13. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 既存の生成モデルの問題点 1. データ構造への強い仮定やモデルに強い近似が必要 – こちらで何らかの分布を設定する必要性 – 設定した分布にモデルが対応する必要性 2. 時間のかかる方法が必要 – MCMC等、複数回サンプリングする必要性 詳細は省略
  • 14. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ ニューラルネットの利用 • 単純なニューラルネットワークの例 1. y = f2(w2x2+b2)=f2(w2(f1(w1x1+b1))+b2)=… ->畳み込みの形でほぼ任意の関数表現が可能:モデルの制約を緩和可能 2. SGDを使えば1サンプルずつ最適化が可能
  • 15. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 生成モデル最適化の前提 • そもそも論 – しかし,そのままpθを求めるのは困難 » 入力(潜在変数z)に対応する答えが不明 こいつを求めたい(Zの元でXが生成される確率分布) 出力潜在変数
  • 16. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 入力から潜在変数zへの分布の仮定 • Encoder – 潜在変数のガウス分布性を仮定する 入力層(画像) Encoder 多変量ガウス分布からサンプリング μ σ z 潜在変数 2~50次元くらい が多い N次元ガウス分布の 平均・分散
  • 17. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 分布の母数の妥当性 • μとΣの決め方に妥当性はあるのか – どちらがμ・Σでも良い:μとΣが最適となるように各層を最適化する どちらでも大丈夫(予めμ・Σが定義づ けられているわけではない) 後でμ・Σに対応するように学習させる
  • 18. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Variational AutoEncoder • Decoder – こちらはzから出力層までにニューラルネットを組めばOK 潜在変数 Decoder z 出力層(画像)
  • 19. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Variational AutoEncoder • Total Structure 入力層 Encoder 潜在変数 Decoder 出力層
  • 20. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ • 潜在変数は多次元のガウス分布を仮定 – 扱いやすいから – 今回の場合、潜在変数に文字の筆跡や形を想定->ガウス分布? 潜在変数zに相当する画像Xを生成 潜在変数の仮定 出力画像潜在変数の分布 潜在変数zから画像Xを生成(θは母数) q(z):pの事前分布として簡単な形(今回は多項ガウス分布)を考える ・z ~ p(z):pの事前分布として簡単な形(今回は多項標準ガウス分布)を考える
  • 21. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ • 入力->潜在変数の分布を生成 • 潜在変数からのサンプリング->入力に近しい出力の生成 VAEのグラフィカルな理解 潜在変数の分布の生成 潜在変数のサンプリング 入力 出力
  • 22. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 最適化の必要性 • で、これってどうやって最適化するの? – 最尤推定:周辺尤度log(pθ(x))の最大化から考える – 周辺尤度log(pθ(x))は以下のように分解できる 母数θを定めた時に取りうるxの周辺確率が最も高くなるように設定する 一般的な変分下界における数式的な展開 変分下界: θ, φの汎関数 ref) PRML下巻9.4 (p=qの時、等号成立) pとqを近づけることが目的なので変分下界を最大化する 必要がある
  • 23. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 変分下界の展開 • 変分下界の展開 – 以下の式変形により、最適にすべき項が導出できる 正則化項:KL Divergence (Regularization Parameter) 復元誤差 (Reconstruction Error) この二つの和を最大化すれば良い
  • 24. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 正則化項:KL Divergence • KL Divergenceの計算 ~N(μ, Σ) ~N(0, I) ref) 細かい式の導出は原論文のAPPENDIX C) 参照
  • 25. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 復元誤差:Reconstruction Error • Reconstruction Errorは以下のように近似できる • 画像のピクセルを0~1に調整した時にベルヌーイ分布を仮定すると logp(x|z)は以下のように表すことができる (yはzの潜在変数を全結合層に通した最終層の変数)
  • 26. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ • 最適化関数 – KL Divergence: p(z)とq(z|x)の情報的な距離・正則化項: – Reconstruction error: 入出力の差: VAEのグラフィカルな理解 潜在変数の分布の生成 潜在変数のサンプリング 入力 出力 潜在変数の事前分布
  • 27. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ VAE全体のブロック図 学習フェーズ 活用フェーズ X 正則化項 復元誤差 Decoder(P) Encoder(Q) Z ~ N(μ, Σ) サンプリング 最適化 X Decoder(P) Z ~ N(μ, Σ) このZを入力として与える
  • 28. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 学習フェーズのより詳細な構造 X Encoder(Q) Decoder(P) μ Σ Sample z ~ N(μ, Σ) zRegularization Parameter Reconstruction Error この形だと誤差逆伝播が使えない! ->サンプリングしている時点で微分の計算が不可 誤差
  • 29. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Reparametrization Trick × * X Encoder(Q) Decoder(P) μ Σ Sample ε ~ N(0, I) z = μ + ε Σ Reconstruction Error Sample z ~ N(μ, Σ)  z = μ + ε Σ (sample ε ~ N(0, I)) と書き直すことができる -> Back Propagationが利用可能 Regularization Parameter
  • 30. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ zの変換について • 一次元の場合の簡単な証明 Sample z ~ N(μ, σ)  z = μ + ε σ (sample ε ~ N(0, 1)) εは標準正規分布なので確率密度関数は と変換できるので代入・周辺化して 次数が2次以上の場合も同様 これは正規分布z~(N(μ, σ))からのサンプリングに他ならない
  • 31. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ VAEの最適化のフローのまとめ DNN DNN + ・生成時 ・訓練時 訓練時のものを利用
  • 32. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Result 表情の生成 文字の生成 • 潜在空間に対応する画像の生成
  • 33. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ VAEの結論 • Deep Learningを生成モデルに適用 – 筆跡や表情といった潜在変数の分布を組み込む形を考案し、データ セットに存在しない自然な画像の生成を可能にした
  • 34. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ おまけ:AutoEncoder Encode Decode OutputInput ・AutoEncoderによる画像の圧縮・再構成 ・中間層での画像の抽象表現の獲得 抽象表現→文字の分布?
  • 35. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Valuational AutoEncoderの実態 Encode Decode OutputInput ・構造はAutoEncoderの中間層にノイズを入れただけ ・loss関数に正則化項を加えた ・構造,名前は非常に似ているが由来は異なる +ε
  • 36. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 生成モデルの論文紹介 • 画像の自動生成 • 3次元モデルの自動生成 • 行動の予測 • (生成モデルではないけどおまけ)DNNを騙す画像の生成
  • 37. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 教師ありVAE • Semi-supervised Learning with Deep Generative Models (14’ M. Welling) – 教師ありVAE, セミ教師ありVAEの提案 – 同じ筆跡の別の文字などの生成も可能に Y labels
  • 38. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ GAN • Generative Advisarial Net(14’ I. J. Goodfellow) – 学習データに似たイメージを作るGenerator – 学習データかGeneratorが作成したデータか見分けるDiscriminator » GenratorとDiscriminatorでイタチごっこをする 一番右が近いイメージ
  • 39. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ LAPGAN • Deep Generative Image Models using a Laplacian Pylamid of Adversarial Networks(15’ E. Denton) – 周波数ごとのGANを作り高解像の画像を生成する手法
  • 40. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ DCGAN • Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks(16’ A.Radford) • GANにCNN, Leaky ReLU, Batch Normalizationを加えた手法 – Leaky Relu: 0以下にも勾配をつけたReLU – Batch Normalization: バッチごとの平均・分散を用いて正規化 精細な画像,潜在変数のベクトル演算
  • 41. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ VAEとGANの統合 • Autoencoding beyond pixels using a learned similarity metric (15’ A. B. L. Larsen) – VAEの後ろ部分にGANをくっつけたもの – VAEのreconstructionとGANの精細さを両立
  • 42. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 文章と画像の統合 • 深層生成モデルを用いたマルチモーダル学習(16’ 鈴木) – 複数のモダリティ情報を統合 – 例えば,モナリザにsmile要素を加える
  • 43. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ RNN+VAE • DRAW: A Recurrent Neural Network For Image Generation (15’ K.Gregor) – RNNとVAEを組み合わせて徐々に画像を生成していく手法 – 上に塗っていくイメージ
  • 44. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 画像圧縮 • Towards Conceptual Compression(16’ K.Gregor) – Convolutional DRAWを提案し,画像圧縮に応用 – 上からJPEG,JPEG2000,下二つが分散あり・なしのCDRAW – 圧縮率を上げても自然な圧縮を実現 圧縮率20%
  • 45. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ Pixelごとの復元 • Pixel Recurrent Neural Networks(16’ A. Oord) – RNNを用いて近傍のPixel群から周りのpixel群を予測して復元
  • 46. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 3次元版のVAE • Deep Convolutional Inverse Graphics Network(15’ TD. Kuulkarni) – VAEを3次元に拡張 – 人の顔のモデルのバリエーションを生成
  • 47. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 2次元画像->3次元モデル • Unsupervised Learning of 3D Structure from Images (16’ D.J.Rezende) – 二次元画像から三次元モデルを復元する – 教師データとしての三次元モデルは一切与えない 2次元画像から復元した3次元モデル
  • 48. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 運動ベクトルの推定 • An Uncertain Future: Forecasting from Static Images using Variational Autoencoders (16’ J. Walker) – 画像と動きのベクトルを学習させて画像のどの部分が動くか予測
  • 49. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ DNNを騙す画像の生成 • Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images(15’ A.Nguyen) – 元ある識別器を騙す画像を進化論的アルゴリズムにより作成 – 識別精度が高くなるように画像のピクセルをランダムに変化させる Direct encode Indirect encode
  • 50. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 終わりに • まとめ – 深層生成モデルの中のVAEについての説明 – 画像関連の生成モデル論文の紹介 • 印象 – 生成モデルはここ1年が凄まじい » VAE・GANの原論文以外はほぼ去年・今年の論文 » DeepMind, OpenAIが参入 » 静止画の生成モデルはかなり行われている印象 – 動画像生成とかはまだまだ
  • 51. Ishikawa Watanabe Lab http://www.k2.t.u-tokyo.ac.jp/ 参考文献 • Introduction to variational autoencoders – URL: https://home.zhaw.ch/~dueo/bbs/files/vae.pdf – VAEのスライド • Deep Advances in Generative Modeling – URL: https://www.youtube.com/watch?v=KeJINHjyzOU – Youtubeでの深層生成モデルの解説 • Digit Fantasies by a Deep Generative Model – URL: http://www.dpkingma.com/sgvb_mnist_demo/demo.html – VAEのデモ • LAPGANの解説(スライド) – 他のGANの話も載っているのでオススメ – URL: http://www.slideshare.net/hamadakoichi/laplacian-pyramid-of- generative-adversarial-networks-lapgan-nips2015-reading-nipsyomi