SlideShare a Scribd company logo
Image-to-Image
Translation with
Conditional Adversarial
NetworksPhillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros
Berkeley AI Research (BAIR) Laboratory
University of California, Berkeley
2017/1/13 河野 慎
書誌情報
➤ 2016年11月4日に投稿@arXiv
➤ GANによる汎用的な画像変換モデル
➤ 年末ということでAdvent Calendarでも大人気
➤ Githubで公開されていて誰でもすぐに遊べる(要Torch)
➤ Torch
2
INTRODUCTION
➤ 言語の翻訳と同様に画像の”翻訳”をしたい
➤ 言語は一対一対応した写像とは限らないため難しい
➤ 画像にも同様なタスクが多数存在する
➤ many-to-one (Computer Vision)
➤ 写真から輪郭,セグメント,セマンティックラベルへ写像
➤ one-to-many(Computer Graphics)
➤ ラベルやユーザのスパースな入力から本物のような画像へ写像
➤ いずれもタスクも”ピクセルからピクセルを予測する”点で共通
➤ これらの問題を扱えるフレームワークを提案することが目標
3
INTRODUCTION
➤ 画像予測タスクでは,CNNがたくさん使われてきた
➤ 学習プロセス自体は自動であるものの,効果的な損失関数を設計する必要がある
➤ うまく設計しないとダメ
➤ 例:ユークリッド距離→ぼやけた画像を生成しがち
➤ 平均的な数値を出そうとするためにぼやける(強弱があまりない)
➤ 一方,GANが最近うまくいってる
➤ ぼやけた画像は”本物”に似てないため,生成されにくい
➤ データに適用した損失を学習することが可能
➤ 従来様々な損失関数を必要としたタスクに適用することが可能と言える
4
RELATED WORK
➤ 構造に関する損失関数
➤ 画像変換はピクセルごとの分類もしくは回帰問題と言える
➤ 入力画像が与えられた時に出力されるピクセルは独立と仮定される
”非構造な”出力空間として扱ってしまう
➤ 一方で条件付きGANなら,構造に関する損失関数を学習する
➤ 様々な既存手法も提案されてきた
➤ 確率場やSSIM(Structual Similarity),特徴マッチング,ノンパラ損失関数,
畳み込み擬似事前分布?,共分散を用いた損失関数
➤ 提案する条件付きGANは上のいかなる構造も学習することができる
5
RELATED WORK
➤ 条件付きGAN
➤ 既存研究では,様々な条件付けが行われてきた
➤ 離散ラベル,文章,画像
➤ 画像による条件付きGAN
➤ 画像修復,地図から画像予測,ユーザによる画像操作,将来のフレーム予測,将
来の状態予測,写真生成,画風変換
➤ いずれも特定のタスクに特化したものであり,自分たちのは汎用的で,
設定も簡単である
➤ また,構造もGに”U-NET”,Dに”PatchGAN”を適用しているため新しい
6
提案モデル(PIX2PIX)
➤ 条件付きGAN(DiscriminatorとGeneratorの両方に条件付ける)
➤ Gにおいて,
➤ zがない場合:デルタ関数しか表現できない(決定論的)
➤ zがある場合:先行研究では,入力に用いている
➤ 実験で,有効性を見いだすことができなかった
➤ Dropoutを中間層に入れて,ノイズzとする
7
ネットワーク構造
➤ 基本方針はDCGAN(Conv - BatchNorm - ReLu)を採用する
➤ Generator:U-NETを採用
➤ 入力と出力は同じ構造を持つ
➤ 低次元の情報を共有するべき
➤ Encoder-Decoder+Skip Connection
ネットワーク構造
➤ Discriminator:PatchGANを採用
➤ L1ノルムやL2ノルムは画像をぼかす
➤ 高周波数ではなく低周波数を正確にキャプチャする
➤ Dは高周波数のキャプチャに専念すれば良くなる
➤ 局所に注目させることが大事→パッチを見ていけば良い
➤ N×Nのパッチが”本物”か”偽物”かを見分ける
➤ パッチ径よりも遠いピクセル間の独立を仮定し,画像をマルコフ確率場としてモデル化する
➤ この仮定はテクスチャやスタイルのモデル化によく使われている
➤ PatchGANはテクスチャ・スタイルの損失関数として理解可能
最適化と推論について
➤ 最適化:ミニバッチSGD+Adam
➤ 推論時も学習時と同じく行う
➤ ドロップアウト・BatchNormalizationの両方
➤ バッチサイズ=1の時,BNはinstance normalizationとして扱われ,
画像生成の時に効果的であることが示されている
➤ 解くタスクによってバッチサイズを変える
➤ サイズは1か4
実験
➤ 様々なタスクに取り組む
➤ Semantic labels ⇄写真(Cityscapes)
➤ Arcitechural labels→写真(CMP Facedes)
➤ 地図⇄航空写真(Google Maps)
➤ 白黒写真→カラー写真(ImageNet)
➤ 輪郭→写真(靴やカバンの画像)
➤ スケッチ→写真(人が書いたスケッチと写真)
➤ 昼→夜
評価方針
➤ 定性的評価
➤ Amazon Mechanical Turkによる比較実験
➤ 生成画像を人が本物と思い込ませられたら良い
➤ AMTで50人×50回(練習10回+本番40回)
➤ 本物と偽物画像がそれぞれ1秒ずつ表示されて,そのあと本物を選択する
➤ 定量的評価
➤ 生成した画像をFCNに入力した時の精度
➤ もし本物のように生成できて入れば,FCNが正しく分類するはず
目的関数の分析
➤ 条件付きとL1が有効であるかどうか
目的関数の分析
➤ カラフル度合について
➤ 仮説:
➤ L1:エッジの場所がわからない場合はぼかし,何色かわからないときは灰色にする
➤ GAN:灰色は本物っぽくないと学習して,真の分布に近づけようとする
➤ Lab色空間(L:彩度,a:赤,b:青)
➤ L1は真の分布より狭い(灰色っぽい),cGANは分布に近い
GENERATORの構造の分析
➤ SkipConnectionが有効であるかどうか
➤ L1だけで学習した場合も有効に働いていることがわかる
DISCRIMINATOR(PATCHGAN)の分析
➤ パッチサイズN×Nを変えたときの効果
➤ パッチサイズはDのレイヤ数で調節する
➤ 空間的なシャープさは変わらない→カラフル度合いが変わる
➤ L1の時は灰色だが,1×1(PixelGAN)のとき赤くなる→分布と対応している
➤ 70×70の時が一番見た目も精度も良い
PATCHGANの汎用性
➤ 256×256の画像で学習させた後に512×512の画像を生成させてもいける
見た目に関する検証
➤ 地図⇄航空写真(異なる入力画像)タスクで評価
➤ 地図→航空写真:うまく騙せた
➤ 航空写真→地図:あまりうまくいかない
➤ 地図は些細な構造的な誤差もわかる
➤ 地図は真っ直ぐ,航空写真はごちゃっとしてる
見た目に関する検証
➤ 白黒→カラー(同じ入力画像)タスクで評価
➤ そこそこうまくいくものの,タスク特化した手法にはかなわない
SEMANTIC SEGMENTATION
➤ ピクセルのクラス分類もできるのでは?
➤ cGANでもそれなりの精度は出せる
➤ CVタスクでは,L1のような損失関数の方がうまくいくと考えられる
➤ GANが学習したのは離散値ではなく,
双一次補間でリサイズされ,
”もの”が圧縮されてしまったもの
そのほかの生成例
そのほかの生成例
そのほかの生成例
そのほかの生成例
そのほかの生成例
そのほかの生成例
失敗例
27
まとめ
➤ なんでもできるGANの提案
➤ 様々な出力が可能
➤ タスク依存の目的関数を設定する必要がない
➤ ソースコード:https://github.com/phillipi/pix2pix
➤ 生成例:https://phillipi.github.io/pix2pix/
➤ 例によってアニメ:http://kusanohitoshi.blogspot.jp/2016/12/deep-learning.html
ラーメン:http://qiita.com/octpath/items/acaf5b4dbcb4e105a8d3

More Related Content

What's hot (20)

PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
PPTX
論文紹介: Fast R-CNN&Faster R-CNN
Takashi Abe
 
PDF
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
 
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
PDF
[DL Hacks]Visdomを使ったデータ可視化
Deep Learning JP
 
PDF
論文紹介 Pixel Recurrent Neural Networks
Seiya Tokui
 
PPTX
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
yoshitaka373
 
PDF
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
PPTX
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Deep Learning JP
 
PDF
Transformer メタサーベイ
cvpaper. challenge
 
PDF
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
PDF
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
Takumi Ohkuma
 
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
 
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
 
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
論文紹介: Fast R-CNN&Faster R-CNN
Takashi Abe
 
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
[DL Hacks]Visdomを使ったデータ可視化
Deep Learning JP
 
論文紹介 Pixel Recurrent Neural Networks
Seiya Tokui
 
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
yoshitaka373
 
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Deep Learning JP
 
Transformer メタサーベイ
cvpaper. challenge
 
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
Takumi Ohkuma
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 

Similar to [DL輪読会]Image-to-Image Translation with Conditional Adversarial Networks (20)

PPTX
[DL輪読会]Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial...
Deep Learning JP
 
PDF
Image-to-Image Translation with Conditional Adversarial Networksの紹介
KCS Keio Computer Society
 
PDF
社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...
Kazuhiro Ota
 
PPTX
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
harmonylab
 
PDF
Few-Shot Unsupervised Image-to-Image Translation
Kento Doi
 
PDF
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP
 
PPTX
Unsupervised image to-image translation networks
Yamato OKAMOTO
 
PDF
文献紹介:Toward Multimodal Image-to-Image Translation
Toru Tamaki
 
PDF
[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)
Deep Learning JP
 
PPTX
[DL輪読会]Unsupervised Cross-Domain Image Generation
Deep Learning JP
 
PDF
20180622 munit multimodal unsupervised image-to-image translation
h m
 
PDF
論文輪読: Generative Adversarial Text to Image Synthesis
mmisono
 
PDF
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Koichi Hamada
 
PDF
CycleGANについて
yohei okawa
 
PPTX
Unsupervised Image-to-Image Translation Networksの紹介
KCS Keio Computer Society
 
PDF
[IBIS2017 講演] ディープラーニングによる画像変換
Satoshi Iizuka
 
PPTX
Bridging between Vision and Language
Shion Honda
 
PDF
4. CycleGANの画像変換と現代美術への応用
幸太朗 岩澤
 
PPTX
[DL輪読会]Freehand-Sketch to Image Synthesis 2018
Deep Learning JP
 
PDF
論文紹介:Panoptic-aware Image-to-Image Translation
Toru Tamaki
 
[DL輪読会]Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial...
Deep Learning JP
 
Image-to-Image Translation with Conditional Adversarial Networksの紹介
KCS Keio Computer Society
 
社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...
Kazuhiro Ota
 
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
harmonylab
 
Few-Shot Unsupervised Image-to-Image Translation
Kento Doi
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP
 
Unsupervised image to-image translation networks
Yamato OKAMOTO
 
文献紹介:Toward Multimodal Image-to-Image Translation
Toru Tamaki
 
[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)
Deep Learning JP
 
[DL輪読会]Unsupervised Cross-Domain Image Generation
Deep Learning JP
 
20180622 munit multimodal unsupervised image-to-image translation
h m
 
論文輪読: Generative Adversarial Text to Image Synthesis
mmisono
 
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Koichi Hamada
 
CycleGANについて
yohei okawa
 
Unsupervised Image-to-Image Translation Networksの紹介
KCS Keio Computer Society
 
[IBIS2017 講演] ディープラーニングによる画像変換
Satoshi Iizuka
 
Bridging between Vision and Language
Shion Honda
 
4. CycleGANの画像変換と現代美術への応用
幸太朗 岩澤
 
[DL輪読会]Freehand-Sketch to Image Synthesis 2018
Deep Learning JP
 
論文紹介:Panoptic-aware Image-to-Image Translation
Toru Tamaki
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

Recently uploaded (9)

PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
 
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
 
PDF
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
 
PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
 
PDF
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
 
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
 
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
 
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
 
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
 
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
 
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
 
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
 
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
 
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
 

[DL輪読会]Image-to-Image Translation with Conditional Adversarial Networks