[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Object-Oriented Dynamics Predictor (NIPS2018)
ShoheiTaniguchi, Matsuo Lab

書誌情報
• Object-Oriented Dynamics Predictor
• Guangxiang Zhu, Chongjie Zhang
Institute for Interdisciplinary Information Sciences
Tsinghua University（清華大学）
• NIPS 2018 accepted
• 選定理由
• ちょうど先週，今年のNIPS一覧が出た．
• action-conditionedなダイナミクスモデリングが気になっていた．
• あえて最近流行りのVAEベースのもの(GQN, World models, TD-VAE等)以
外から選んでみた．
2

アジェンダ
1. イントロ
2. 関連研究
3. 手法
4. 実験
5. まとめ
3

イントロ
• model-free DRLはatariなどのゲームで人間レベルのスコアを出すことに成
功しているが，サンプル効率が悪く，異なるタスクに対して汎化しない．
• こうした問題を改善するため，model-based DRLは環境のダイナミクスモデ
ルを学習し，それを基に方策のプランニングを行う．
• 特に行動で条件付けたダイナミクスモデルが数多く提案され，大きな成果を
上げているが，これらはピクセルレベルの動きを学習しているため，物体の
レイアウトが変化した場合などにうまく汎化しない．
• 本論文では，環境を明示的に物体ベースで分解し，物体間の関係性からダ
イナミクスを学習するモデルを提案し，物体のレイアウトが変化した際にう
まく汎化することを示した．
• 物体ベースであることによる解釈性の高さも主張している．
4

アジェンダ
1. イントロ
2. 関連研究
3. 手法
4. 実験
5. まとめ
5

関連研究
行動で条件付けたダイナミクス
[9] Action-conditional video prediction using deep networks in atari
games (NIPS 2015)
[10] Embed to control: A locally linear latent dynamics model for
control from raw images (NIPS 2015)
[11] Unsupervised learning for physical interaction through video
prediction (NIPS 2016)
 いずれもピクセルベースで学習しており，物体間の関係性などを考慮して
いない．
6

関連研究
Relationベース
物理的な推論を物体間の関係性の学習により実現する
[18] A compositional object-based approach to learning physical
dynamics
[19] Interaction networks for learning about objects, relations and
physics (NIPS 2016)
[20] Visual interaction networks (NIPS 2017)
[21] A simple neural network module for relational reasoning (NIPS
2017)
 行動で条件付けたダイナミクスの学習にはなっていない
7

関連研究
物体ベースの強化学習
物体表現ベースで学習し、行動の効果を物体間の関係性によって条件付け
る
[16] Generalizing plans to new environments in relational mdps (IJCAI
2003)
[17] An object-oriented representation for efficient reinforcement
learning (ACM 2008)
[23] Object focused q-learning for autonomous agents (AAMAS 2013)
 物体表現や物体間の関係性をfeature engineeringして明示的にエンコード
している
 本論文では深層学習の枠組みでそれらの表現を自動的に学習
8

アジェンダ
1. イントロ
2. 関連研究
3. 手法
4. 実験
5. まとめ
9

全体像
10
• 大きく3つの要素からなる
① Object Detector
② Dynamics Net
③ Background Splitter

① Object Detector
• 入力画像を物体ベースで分解
• まず、物体を静的 or 動的でグループ分け
• それぞれについてCNNによるマスクを用意
して、物体の空間分布を表現する
• 静的な物体は物体クラスごとに，動的な物体は各物体ごとにマスキングす
る
• ピクセル𝐼(𝑢, 𝑣)が物体𝑂𝑐に属する確率がSoftmax関数によって下式で表現
される
• Pixel-wise entropy lossを導入して，より離散的なマスクが得られるように学
習
11

② Dynamics Net
• 物体の動きを行動と物体間の関係性
で条件づけて学習
• 局所的な動きにフォーカスするために，Tailor Moduleで物体の周辺𝑤 × 𝑤
のみをbilinear samplingを用
いてクロッピング
• 物体のペアごとにCNNを用意し，物体間の相互作用Eを出力
• 物体ごとにEの合計と行動のone-hot表現の積をとって動きの予測ベクトル
とする
• 回帰誤差関数を導入
12

③ Background Splitter
• 時間不変な背景を抽出
• 一般的なencoder-decoder構造
• 時間不変な制約をかけるための誤差関数を導入
13

Spatial Transformer Network
• 入力画像，Dynamic Net，Background Splitterの出力から次のフレームを予
測
• 基本的にはSpatial transformer networks (NIPS 2015) をそのまま引用して，
それぞれに適用
• 予測誤差に加えて以下の誤差関数を導入
14

誤差関数
• 既出の誤差関数を重み付けして和を取る
• これに前景検出との誤差を取る以下の誤差関数を加えたバージョンを
OODP+pとして別途用意
15

アジェンダ
1. イントロ
2. 関連研究
3. 手法
4. 実験
5. まとめ
16

実験設定
• Pygame Learning EnvironmentのMonster Kongを用いて実験
• k個の異なる環境で学習し，10個の初見の環境でテスト (k=1,2,3,4,5)
• エージェントの方策はランダム
• 従来手法として関連研究で挙げたAC Model [9], CDNA [11]と比較
17

結果
18n-error accuracyは予測とのズレがnピクセル以下である割合を表す

解釈性の検証
19
静的・動的な物体ともにうまくセグメンテーションできている

物体の外見の変化に対する頑健性
• 上図のようにテスト時に物体の外見が変化した場合の性能を検証
• この程度の変化に対しては十分汎化している
20

アジェンダ
1. イントロ
2. 関連研究
3. 手法
4. 実験
5. まとめ
21

まとめ
• ダイナミクスの予測を行動と物体間の関係性で条件づけて行うフレーム
ワークを提案
• 強い汎化性能に加えて，解釈性の高いモデルを教師なし手法で提案したこ
とが大きな貢献
• 今後、部分的観測環境への適用や長期の予測，より複雑な状態遷移を含
むドメインへの応用，モデルベース強化学習での使用など，多くの発展が
見込まれる
22

Object Detectorのアーキテクチャ
23

[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)

Recommended

More Related Content

Similar to [DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018) (20)

More from Deep Learning JP (20)

[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)