DeNA AIシステム部内の輪講で発表した資料です。Deep fakesの種類やその検出法の紹介です。
主に下記の論文の紹介
S. Agarwal, et al., "Protecting World Leaders Against Deep Fakes," in Proc. of CVPR Workshop on Media Forensics, 2019.
A. Rossler, et al., "FaceForensics++: Learning to Detect Manipulated Facial Images," in Proc. of ICCV, 2019.
DeNA AIシステム部内の輪講で発表した資料です。Deep fakesの種類やその検出法の紹介です。
主に下記の論文の紹介
S. Agarwal, et al., "Protecting World Leaders Against Deep Fakes," in Proc. of CVPR Workshop on Media Forensics, 2019.
A. Rossler, et al., "FaceForensics++: Learning to Detect Manipulated Facial Images," in Proc. of ICCV, 2019.
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
Ad
【DL輪読会】Masked World Models for Visual Control
1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Masked World Models for Visual Control
Koki Yamane, University of Tsukuba
2. 書誌情報
2022/12/9 2
題名 Masked World Models for Visual Control
著者 Younggyo Seo (1,2), Danijar Hafner (2,3,4), Hao Liu (2), Fangchen Liu (2),
Stephen James (2), Kimin Lee (3), Pieter Abbeel (2)
所属 (1) KAIST (2) UC Berkeley (3) Google Research (4) University of Toronto
会議 CoRL 2022
website https://sites.google.com/view/mwm-rl
概要 世界モデルの画像表現学習に Masked Autoencoder (MAE) を使用
報酬の予測によりタスクに適した表現を獲得
3. 先行研究:
世界モデル [Ha+ 2018]
Vision (V) Model
画像を潜在変数に圧縮
VAE,対照学習など
Memory (M) Model
潜在変数の時間変化を学習
RNNで潜在変数の系列を記憶
Controller (C) Model
潜在変数から行動を予測
世界モデルが学習できれば方策は線
形モデルで単純なモデル化が可能
2022/12/9 D. Ha and J. Schmidhuber. World models. In Advances in Neural Information Processing Systems, 2018. 3
環境のシミュレータを学習により獲得し高いサンプル効率で強化学習
4. 背景:物体消失問題
画像表現学習とタスクのギャップ
VAEのような再構成学習では面積の小
さい要素は無視してもLossが下がっ
てしまう
一方でタスクに必要なのは対象物体
の位置などの一部の情報
学習コストの問題
画像モデルと状態遷移モデルを同時
に学習すると高次元データのRNNに
なり計算量が増大
2022/12/9
Okada, Masashi, and Tadahiro Taniguchi. "DreamingV2: Reinforcement Learning with Discrete World Models without
Reconstruction." arXiv preprint arXiv:2203.00494 (2022).
4
単純に再構成誤差でAEを学習してもタスクに適した表現は得られない
5. 先行研究:
Masked Autoencoder (MAE) [He+ 2021]
パッチに分割された画像の大部分
(75%)をマスクしてViTに入力
損失関数
マスクされたパッチの再構成誤差
(MSE)
画像分類タスクで高精度を達成
2022/12/9
K. He, X. Chen, S. Xie, Y. Li, P. Dollar, and R. Girshick. Masked autoencoders are scalable vision learners. arXiv preprint
arXiv:2111.06377, 2021.
5
ViTをマスク復元タスクで事前学習