SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Solar: Deep structured latent representations for
model-based reinforcement learning
Presentater: Kei Akuzawa, Matsuo Lab. D1
AGENDA
• 書誌情報
• 発表のモチベーション
• 背景
• Deep State Space Models
• LQR
• 手法
• 全体像
• 環境モデルの学習
• 環境モデルを用いたLQR
• 関連研究
• 実験
• まとめ
書誌情報
• タイトル
• SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning
• 著者
• Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin
• UC Berkeleyが中心
• ICML2019
• 一言まとめ
• 強化学習において,潜在変数の遷移が線形となるような深層状態空間モデル(Deep
State Space Model, DSSM)を採用することにより,複雑な環境(観測が画像)におい
てもLinnear-Quadratic Regulator(LQR)でコントローラーを学習できるようにした
発表のモチベーション
• 近年モデルベース強化学習(RL)の進展が目覚ましい.進展の背景:
• 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように
• Deep State Space Models (DSSM) に関する知見が整ってきた
• 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス
• 前回の発表では,DSSMの進展を中心に扱った.しかしDSSMをどうRLに組み入れ
るかは以前発展途上
• https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamics-
modelplanet-vaerl
• 今回発表する論文は,DSSMをRLに組み合わせる新しいアプローチを提案
• 制御理論で目にするLinnear-Quadratic Regulator(LQR)と組み合わせたい
• (制御アルゴリズムの詳細わかってないです……orz)
• 組み合わせるために,新たなDSSMを提案
背景 Deep State Space Models
• Notation:
• 𝑜𝑡: 観測(画像など)
• 𝑎 𝑡: アクション
• 𝑠𝑡: 潜在変数(状態)
• State Space Models (SSM): 状態と観測が異なる系
• 𝑡期の状態𝑠𝑡のみから観測𝑜𝑡が決まるため,予測
が高速(観測の逐次的な生成が必要ない)
• 状態𝑠𝑡がマルコフ性を満たす(POMDPへの自然
な拡張になっている)
• ただし𝑠𝑡は観測できないので推論を行う
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
背景 Deep State Space Models
• 学習:
• Amortized Inference (VAEと同様入力データで条件づけられた推論モデル)
を用いることが多い
• 生成モデル:
• 𝑝 𝑜1:𝑇|𝑎1:𝑇 = 𝑡=1
𝑇
𝑝 𝑜𝑡 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 𝑑𝑠1:𝑇
• 推論モデル:
• 𝑞 𝑠1:𝑇|𝑜1:𝑇, 𝑎1:𝑇 = 𝑡=1
𝑇
𝑞 𝑠𝑡|𝑜1:𝑇. 𝑎 𝑡
• ELBO:
• 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇,𝑎1:𝑇
log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿[𝑞 𝑠𝑡|𝑜1:𝑇, 𝑎1:𝑇 |𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 ]
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
[余談] DSSMとそのRLにおける用途
DSSMのRLにおける用途 DSSM自体の工夫
Solar 最適制御(潜在変数の遷移が線形
となるようなDSSMを採用すること
により,画像観測においても
Linnear-Quadratic Regulator(LQR)
でコントローラーを学習)
潜在空間上の遷移が線形になるよ
うに設計
PlaNet [Hafner+ 2019] プランニング(DSSMの潜在空間上
で高速なプランニングを行う)
長期の予測が行えるような補助タ
スク(overshooting)
SLAC [Lee+2019] 表現学習(DSSMで推論した潜在変
数がマルコフ性を満たすことを利
用して,𝑠𝑡を入力にとるactorを用い
たsoft actor-criticを提案)
方策自体もグラフィカルモデルで
書く(Control as Inference)
背景 Linear Quadratic Regulator
• 線形の時変環境モデル,二次形式のコスト関数が与えられている状況を想定
• for 𝑡 ∈ {1, … , 𝑇}
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁 𝑭 𝒕
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮 𝑡
• 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
• コストが最小かつエントロピーが最大になる方策を陽に求めることができる(制
御理論のアルゴリズムが使えて嬉しい)
• 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい
• (GPSのようにNeural Network PolicyにFittingしているわけではない???)
手法 全体像
• 線形の環境モデルがあれば,制御理論のアルゴリズムが使える
• Q. 観測が画像のとき,線形の環境モデルを立てることができるか…?
• A. DNNで観測を写像した先の潜在空間上なら,
遷移を線形にしても良さそう!
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮)
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
𝑭, 𝜮
𝑡 = 2, … , 𝑇
手法 全体像
(1) 現在の方策で
rollouts(訓練
データ)を収集
(2) 環境モデルの
学習
(3) LQRに必要な
パラメーター
𝑭, 𝒕 𝜮 𝒕 𝒕を推論
(4) LQRで方策を
訓練
手法 環境モデルの学習
• LQRを使うために遷移モデルを線形に設計
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮)
where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0, 𝑉
• 𝑀𝑁𝐼𝑊: ガウスの共役事前分布
(Matrix Normal inverse-Wishart distribution)
• つまり,事後分布 𝑝 𝑭, 𝜮 𝑠𝑡, 𝑠𝑡−1, 𝑎 𝑡−1 𝑖 も𝑀𝑁𝐼𝑊で
嬉しい
• LQRを使うためコスト関数も二次形式で設計し学習
• 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
𝑭, 𝜮
𝑡 = 2, … , 𝑇
手法 環境モデルの学習
• 特に関心のある分布
• 𝑝 𝑭, 𝜮 𝑜1:𝑇, 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要)
• 𝑝 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 (𝑠𝑡が方策の入力として必要)
• どちらも解析的にわからないので近似する
• 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0
′
, 𝑉′)
• 𝑞 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 ∝
𝑝(𝑠1) 𝑡=1
𝑇
𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙)
• Product of Experts(PoE) を利用している
• 𝜓 𝑠𝑡; 𝑜𝑡, 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒 𝜙(𝑜𝑡)), 𝑒 𝜙はエンコーダ
• うまいパラメータ共有
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
𝑭, 𝜮
𝑡 = 2, … , 𝑇
手法 環境モデルの学習
• ELBO:
• 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇
log 𝑝 𝑜1:𝑇|𝑠1:𝑇 −
𝐷 𝐾𝐿 𝑞 𝑠𝑡|𝑜𝑡, 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 − 𝐷 𝐾𝐿[𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ]
• (基本的にVAEのELBOと同じ)
• あとは, 𝑝 𝑜1:𝑇|𝑠1:𝑇 , 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習
• とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0
′
, 𝑉′) に関しては自然勾配が計算できる
• 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference
• 詳細はJohnson+2016
再構成誤差
近似分布と事前分布のKL項
手法 環境モデルを用いたLQR
• 環境モデルを学習し以下が得られたと想定
• 𝑞∗ 𝑭, 𝜮
• 𝜓∗
𝑠𝑡; 𝑜𝑡, 𝜙
• 𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
• コスト関数𝑝∗
𝑐𝑡 𝑠𝑡, 𝑎 𝑡 は持っているので,あとは 𝑭, 𝒕 𝜮 𝒕 𝒕=𝟏,…𝑻がLQRに必要
• ある軌道[𝑜0, 𝑎0, 𝑐0, … , 𝑜 𝑇, 𝑎 𝑇, 𝑐 𝑇]が与えられたとする.𝑝(𝑭 𝒕, 𝜮 𝒕|𝑜1:𝑇, 𝑎1:𝑇)を最も
よく近似する𝑞 𝑭 𝑡, 𝜮 𝒕 を求めたい
• 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭 𝒕, 𝜮 𝒕 の事前分布として用いて(経験ベイズ),ELBOについて
𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 のEM法を解けば最適な𝑞 𝑭 𝑡, 𝜮 𝒕 が求まる
• ( 最適な𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 はClosed Formで書ける)
関連研究
• DSSMの遷移モデルの設計が大事
• 特に線形だと制御理論の知見を活かせる,遷移行列のスペクトルが意味を持
つ[Johnson+2016]など,メリットがある
• 他に,線形の遷移モデルを組んでいる研究はあるだろうか?どんな生成/推論モ
デルが好ましいだろうか
• (論文自体で紹介されている関連研究ではなく,発表者から見た関連研究です)
関連研究 E2C
• 「潜在空間上で線形の遷移モデルを学習し,それをLQRに利用する」というコン
セプトの初出
• 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない
[PlaNetで指摘]
• 遷移行列のパラメータ𝐴 𝑡は𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)で求める
• ただし遷移行列𝐴 𝑡はパラメータ数が𝑂(𝑛 𝑟𝑜𝑤 𝑛 𝑐𝑜𝑙)でスケールしないので,実用
上は𝐴 𝑡 = (𝑰 + 𝑣 𝑡 𝑟𝑡
𝑇
)と置いて𝑣 𝑡 𝑧𝑡 , 𝑟𝑡(𝑧𝑡)を求める
関連研究 Deep Variational Bayes Filters
• Amortized Inferenceで線形の遷移を作る方法の提案
• 遷移を次のように設計: 𝑧𝑡 = 𝐴 𝑡 𝑧𝑡 + 𝐵𝑡 𝑢 𝑡 + 𝑛𝑜𝑖𝑠𝑒
• where 𝐴 𝑡 = 𝑖=1
𝑀
𝛼 𝑡
(𝑖)
𝐴(𝑖) , ただし 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 ,
• データ非依存の行列𝐴(𝑖)をM個用意しておいて,そのM個の行列に対する重み
をデータ点依存でInferenceしている
• (おそらく)ナイーブにAmortized Inferenceを行って(𝑞(𝐴 𝑡|𝑜1:𝑇)のように
設計して),データ点ごとに遷移行列を計算するのは難しいから
関連研究 遷移行列へのInferenceまとめ
直感的 数式的
Solar Stochastic Variational Inference 𝑞∗
𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓′
, 𝜈′
, 𝑀0
′
, 𝑉′
事後分布𝑞 𝑭 𝒕, 𝜮 𝒕|𝑠1:𝑇, 𝑎1:𝑇 も解析
的に求まる
E2C[Watter+2015] 𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)として,パラメー
タ𝜓を学習
𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)
DVBF[Karl+2017] Amortized Inference (データ点非
依存なM個の遷移行列と,デー
タ点依存の重みの線形和)
𝐴 𝑡 =
𝑖=1
𝑀
𝛼 𝑡
(𝑖)
𝐴(𝑖)
,
𝑤ℎ𝑒𝑟𝑒 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡
結局どれが良いのかは良くわからないが,なんとなくSolarが使い回しやすそう
実験
• 比較手法
• PPO: モデルフリーのベースライン
• LQR-FLM from pixels: 表現学習なし
• (当然)全く学習できず
• Deep Visual Foresight(DVF): SOTAモデルベースRL
• pixel空間でMPCをやらせる.
• RCE: E2Cの改善版
• VAE ablation: Inferenceモデルの学習に系列情報を考慮しない
• 推論モデルを𝑞(𝑠𝑡|𝑜𝑡)にして,遷移モデルを後から学習している
• MPC baseline: 環境のモデルをPlanningに用いる
• おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる
実験
• モデルベースはサンプル効率が良い
• 環境モデルの事前訓練を行うためMPC
baselineは序盤強いが,訓練が進むにつれ
SOLARが優位
• RCEが全然動いてないのはなぜ…?
• RCEの論文と解いてるタスクは違うらしい
実験 Sawyer Block Stacking
• 初期位置が違う3つのタスク(右上)
• 特に難しいタスク3ではMPCベースライ
ンより提案手法の方が良い
• 長期の予測を行うのが難しいので,
環境モデルをPlanningに使うより
policy improvementに使う方が良い?
感想
• DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究
• 線形の遷移を作る方法はいくつかあるので,そのあたりの検証も欲しい
• また線形の遷移を作った時に,非線形の遷移モデルを持つDSSMと比べて尤度が
どうなるか等も知りたい
• 制御説明できなくてすみません
References
• D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent
dynamics for planning from pixels. In International Conference on Machine Learning
(ICML), 2019.
• A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep
Reinforcement Learning with a Latent Variable Model, arxiv, 2019.
• Levine, S. and Abbeel, P. Learning neural network policies with guided policy search
under unknown dynamics. In NIPS, 2014.
• Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical
models with neural networks for structured representations and fast inference. In NIPS,
2016.
• Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally
linear latent dynamics model for control from raw images. In NIPS, 2015
• M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsuper-
vised learning of state space models from raw data. In Proceedings of ICLR, 2017.

More Related Content

What's hot (20)

PDF
機械学習の理論と実践
Preferred Networks
 
PDF
最適輸送の解き方
joisino
 
PDF
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
 
PDF
統計的係り受け解析入門
Yuya Unno
 
PDF
スペクトラルグラフ理論入門
irrrrr
 
PDF
【DL輪読会】Implicit Behavioral Cloning
Deep Learning JP
 
PDF
Probabilistic Graphical Models 輪読会 #1
Takuma Yagi
 
PDF
統計学勉強会#2
Hidehisa Arai
 
PDF
ELBO型VAEのダメなところ
KCS Keio Computer Society
 
PDF
最適化計算の概要まとめ
Yuichiro MInato
 
PDF
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
Deep Learning JP
 
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 
PPTX
[DL輪読会]World Models
Deep Learning JP
 
PDF
「世界モデル」と関連研究について
Masahiro Suzuki
 
PDF
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
PDF
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918
 
PDF
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
 
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
 
PDF
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
Deep Learning JP
 
PDF
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
 
機械学習の理論と実践
Preferred Networks
 
最適輸送の解き方
joisino
 
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
 
統計的係り受け解析入門
Yuya Unno
 
スペクトラルグラフ理論入門
irrrrr
 
【DL輪読会】Implicit Behavioral Cloning
Deep Learning JP
 
Probabilistic Graphical Models 輪読会 #1
Takuma Yagi
 
統計学勉強会#2
Hidehisa Arai
 
ELBO型VAEのダメなところ
KCS Keio Computer Society
 
最適化計算の概要まとめ
Yuichiro MInato
 
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
Deep Learning JP
 
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 
[DL輪読会]World Models
Deep Learning JP
 
「世界モデル」と関連研究について
Masahiro Suzuki
 
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918
 
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
 
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
Deep Learning JP
 
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
 

Similar to [DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning (20)

PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Deep Learning JP
 
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
PPT
Deep Learningの技術と未来
Seiya Tokui
 
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
 
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
PDF
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
Deep Learning JP
 
PDF
論文紹介-Multi-Objective Deep Reinforcement Learning
Shunta Nomura
 
PDF
IROS2020 survey
robotpaperchallenge
 
PDF
[DL輪読会]Unsupervised Learning of 3D Structure from Images
Deep Learning JP
 
PDF
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
 
PPTX
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
 
PPTX
Active Learning と Bayesian Neural Network
Naoki Matsunaga
 
PPTX
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
PDF
Deeplearning lt.pdf
Deep Learning JP
 
PDF
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
Takuya Minagawa
 
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
 
PPTX
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
Deep Learning JP
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Deep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
Deep Learningの技術と未来
Seiya Tokui
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
Deep Learning JP
 
論文紹介-Multi-Objective Deep Reinforcement Learning
Shunta Nomura
 
IROS2020 survey
robotpaperchallenge
 
[DL輪読会]Unsupervised Learning of 3D Structure from Images
Deep Learning JP
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
 
Active Learning と Bayesian Neural Network
Naoki Matsunaga
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
Deeplearning lt.pdf
Deep Learning JP
 
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
Takuya Minagawa
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
 
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
Deep Learning JP
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

Recently uploaded (8)

PDF
2023年版Web3技術の理想と現実
Syuhei Hiya
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
PDF
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
 
PPTX
オープンソース界隈の利用者や技術者から見たオープンソースEDAとは? What is open source EDA from the perspecti...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
PDF
go tool と Minimal Version Selection アルゴリズム
Keisuke Ishigami
 
PPTX
新卒・中途採用者向け採用ピッチ資料2025年7月版(20250702).pptx
Official74
 
2023年版Web3技術の理想と現実
Syuhei Hiya
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
 
オープンソース界隈の利用者や技術者から見たオープンソースEDAとは? What is open source EDA from the perspecti...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
go tool と Minimal Version Selection アルゴリズム
Keisuke Ishigami
 
新卒・中途採用者向け採用ピッチ資料2025年7月版(20250702).pptx
Official74
 

[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Solar: Deep structured latent representations for model-based reinforcement learning Presentater: Kei Akuzawa, Matsuo Lab. D1
  • 2. AGENDA • 書誌情報 • 発表のモチベーション • 背景 • Deep State Space Models • LQR • 手法 • 全体像 • 環境モデルの学習 • 環境モデルを用いたLQR • 関連研究 • 実験 • まとめ
  • 3. 書誌情報 • タイトル • SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning • 著者 • Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin • UC Berkeleyが中心 • ICML2019 • 一言まとめ • 強化学習において,潜在変数の遷移が線形となるような深層状態空間モデル(Deep State Space Model, DSSM)を採用することにより,複雑な環境(観測が画像)におい てもLinnear-Quadratic Regulator(LQR)でコントローラーを学習できるようにした
  • 4. 発表のモチベーション • 近年モデルベース強化学習(RL)の進展が目覚ましい.進展の背景: • 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように • Deep State Space Models (DSSM) に関する知見が整ってきた • 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス • 前回の発表では,DSSMの進展を中心に扱った.しかしDSSMをどうRLに組み入れ るかは以前発展途上 • https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamics- modelplanet-vaerl • 今回発表する論文は,DSSMをRLに組み合わせる新しいアプローチを提案 • 制御理論で目にするLinnear-Quadratic Regulator(LQR)と組み合わせたい • (制御アルゴリズムの詳細わかってないです……orz) • 組み合わせるために,新たなDSSMを提案
  • 5. 背景 Deep State Space Models • Notation: • 𝑜𝑡: 観測(画像など) • 𝑎 𝑡: アクション • 𝑠𝑡: 潜在変数(状態) • State Space Models (SSM): 状態と観測が異なる系 • 𝑡期の状態𝑠𝑡のみから観測𝑜𝑡が決まるため,予測 が高速(観測の逐次的な生成が必要ない) • 状態𝑠𝑡がマルコフ性を満たす(POMDPへの自然 な拡張になっている) • ただし𝑠𝑡は観測できないので推論を行う 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡
  • 6. 背景 Deep State Space Models • 学習: • Amortized Inference (VAEと同様入力データで条件づけられた推論モデル) を用いることが多い • 生成モデル: • 𝑝 𝑜1:𝑇|𝑎1:𝑇 = 𝑡=1 𝑇 𝑝 𝑜𝑡 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 𝑑𝑠1:𝑇 • 推論モデル: • 𝑞 𝑠1:𝑇|𝑜1:𝑇, 𝑎1:𝑇 = 𝑡=1 𝑇 𝑞 𝑠𝑡|𝑜1:𝑇. 𝑎 𝑡 • ELBO: • 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇,𝑎1:𝑇 log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿[𝑞 𝑠𝑡|𝑜1:𝑇, 𝑎1:𝑇 |𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 ] 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡
  • 7. [余談] DSSMとそのRLにおける用途 DSSMのRLにおける用途 DSSM自体の工夫 Solar 最適制御(潜在変数の遷移が線形 となるようなDSSMを採用すること により,画像観測においても Linnear-Quadratic Regulator(LQR) でコントローラーを学習) 潜在空間上の遷移が線形になるよ うに設計 PlaNet [Hafner+ 2019] プランニング(DSSMの潜在空間上 で高速なプランニングを行う) 長期の予測が行えるような補助タ スク(overshooting) SLAC [Lee+2019] 表現学習(DSSMで推論した潜在変 数がマルコフ性を満たすことを利 用して,𝑠𝑡を入力にとるactorを用い たsoft actor-criticを提案) 方策自体もグラフィカルモデルで 書く(Control as Inference)
  • 8. 背景 Linear Quadratic Regulator • 線形の時変環境モデル,二次形式のコスト関数が与えられている状況を想定 • for 𝑡 ∈ {1, … , 𝑇} • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁 𝑭 𝒕 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮 𝑡 • 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) • コストが最小かつエントロピーが最大になる方策を陽に求めることができる(制 御理論のアルゴリズムが使えて嬉しい) • 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい • (GPSのようにNeural Network PolicyにFittingしているわけではない???)
  • 9. 手法 全体像 • 線形の環境モデルがあれば,制御理論のアルゴリズムが使える • Q. 観測が画像のとき,線形の環境モデルを立てることができるか…? • A. DNNで観測を写像した先の潜在空間上なら, 遷移を線形にしても良さそう! • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮) 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  • 10. 手法 全体像 (1) 現在の方策で rollouts(訓練 データ)を収集 (2) 環境モデルの 学習 (3) LQRに必要な パラメーター 𝑭, 𝒕 𝜮 𝒕 𝒕を推論 (4) LQRで方策を 訓練
  • 11. 手法 環境モデルの学習 • LQRを使うために遷移モデルを線形に設計 • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮) where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0, 𝑉 • 𝑀𝑁𝐼𝑊: ガウスの共役事前分布 (Matrix Normal inverse-Wishart distribution) • つまり,事後分布 𝑝 𝑭, 𝜮 𝑠𝑡, 𝑠𝑡−1, 𝑎 𝑡−1 𝑖 も𝑀𝑁𝐼𝑊で 嬉しい • LQRを使うためコスト関数も二次形式で設計し学習 • 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  • 12. 手法 環境モデルの学習 • 特に関心のある分布 • 𝑝 𝑭, 𝜮 𝑜1:𝑇, 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要) • 𝑝 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 (𝑠𝑡が方策の入力として必要) • どちらも解析的にわからないので近似する • 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0 ′ , 𝑉′) • 𝑞 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 ∝ 𝑝(𝑠1) 𝑡=1 𝑇 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙) • Product of Experts(PoE) を利用している • 𝜓 𝑠𝑡; 𝑜𝑡, 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒 𝜙(𝑜𝑡)), 𝑒 𝜙はエンコーダ • うまいパラメータ共有 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  • 13. 手法 環境モデルの学習 • ELBO: • 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇 log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿 𝑞 𝑠𝑡|𝑜𝑡, 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 − 𝐷 𝐾𝐿[𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ] • (基本的にVAEのELBOと同じ) • あとは, 𝑝 𝑜1:𝑇|𝑠1:𝑇 , 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習 • とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0 ′ , 𝑉′) に関しては自然勾配が計算できる • 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference • 詳細はJohnson+2016 再構成誤差 近似分布と事前分布のKL項
  • 14. 手法 環境モデルを用いたLQR • 環境モデルを学習し以下が得られたと想定 • 𝑞∗ 𝑭, 𝜮 • 𝜓∗ 𝑠𝑡; 𝑜𝑡, 𝜙 • 𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) • コスト関数𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 は持っているので,あとは 𝑭, 𝒕 𝜮 𝒕 𝒕=𝟏,…𝑻がLQRに必要 • ある軌道[𝑜0, 𝑎0, 𝑐0, … , 𝑜 𝑇, 𝑎 𝑇, 𝑐 𝑇]が与えられたとする.𝑝(𝑭 𝒕, 𝜮 𝒕|𝑜1:𝑇, 𝑎1:𝑇)を最も よく近似する𝑞 𝑭 𝑡, 𝜮 𝒕 を求めたい • 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭 𝒕, 𝜮 𝒕 の事前分布として用いて(経験ベイズ),ELBOについて 𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 のEM法を解けば最適な𝑞 𝑭 𝑡, 𝜮 𝒕 が求まる • ( 最適な𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 はClosed Formで書ける)
  • 15. 関連研究 • DSSMの遷移モデルの設計が大事 • 特に線形だと制御理論の知見を活かせる,遷移行列のスペクトルが意味を持 つ[Johnson+2016]など,メリットがある • 他に,線形の遷移モデルを組んでいる研究はあるだろうか?どんな生成/推論モ デルが好ましいだろうか • (論文自体で紹介されている関連研究ではなく,発表者から見た関連研究です)
  • 16. 関連研究 E2C • 「潜在空間上で線形の遷移モデルを学習し,それをLQRに利用する」というコン セプトの初出 • 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない [PlaNetで指摘] • 遷移行列のパラメータ𝐴 𝑡は𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡)で求める • ただし遷移行列𝐴 𝑡はパラメータ数が𝑂(𝑛 𝑟𝑜𝑤 𝑛 𝑐𝑜𝑙)でスケールしないので,実用 上は𝐴 𝑡 = (𝑰 + 𝑣 𝑡 𝑟𝑡 𝑇 )と置いて𝑣 𝑡 𝑧𝑡 , 𝑟𝑡(𝑧𝑡)を求める
  • 17. 関連研究 Deep Variational Bayes Filters • Amortized Inferenceで線形の遷移を作る方法の提案 • 遷移を次のように設計: 𝑧𝑡 = 𝐴 𝑡 𝑧𝑡 + 𝐵𝑡 𝑢 𝑡 + 𝑛𝑜𝑖𝑠𝑒 • where 𝐴 𝑡 = 𝑖=1 𝑀 𝛼 𝑡 (𝑖) 𝐴(𝑖) , ただし 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 , • データ非依存の行列𝐴(𝑖)をM個用意しておいて,そのM個の行列に対する重み をデータ点依存でInferenceしている • (おそらく)ナイーブにAmortized Inferenceを行って(𝑞(𝐴 𝑡|𝑜1:𝑇)のように 設計して),データ点ごとに遷移行列を計算するのは難しいから
  • 18. 関連研究 遷移行列へのInferenceまとめ 直感的 数式的 Solar Stochastic Variational Inference 𝑞∗ 𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓′ , 𝜈′ , 𝑀0 ′ , 𝑉′ 事後分布𝑞 𝑭 𝒕, 𝜮 𝒕|𝑠1:𝑇, 𝑎1:𝑇 も解析 的に求まる E2C[Watter+2015] 𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡)として,パラメー タ𝜓を学習 𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡) DVBF[Karl+2017] Amortized Inference (データ点非 依存なM個の遷移行列と,デー タ点依存の重みの線形和) 𝐴 𝑡 = 𝑖=1 𝑀 𝛼 𝑡 (𝑖) 𝐴(𝑖) , 𝑤ℎ𝑒𝑟𝑒 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 結局どれが良いのかは良くわからないが,なんとなくSolarが使い回しやすそう
  • 19. 実験 • 比較手法 • PPO: モデルフリーのベースライン • LQR-FLM from pixels: 表現学習なし • (当然)全く学習できず • Deep Visual Foresight(DVF): SOTAモデルベースRL • pixel空間でMPCをやらせる. • RCE: E2Cの改善版 • VAE ablation: Inferenceモデルの学習に系列情報を考慮しない • 推論モデルを𝑞(𝑠𝑡|𝑜𝑡)にして,遷移モデルを後から学習している • MPC baseline: 環境のモデルをPlanningに用いる • おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる
  • 21. 実験 Sawyer Block Stacking • 初期位置が違う3つのタスク(右上) • 特に難しいタスク3ではMPCベースライ ンより提案手法の方が良い • 長期の予測を行うのが難しいので, 環境モデルをPlanningに使うより policy improvementに使う方が良い?
  • 22. 感想 • DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究 • 線形の遷移を作る方法はいくつかあるので,そのあたりの検証も欲しい • また線形の遷移を作った時に,非線形の遷移モデルを持つDSSMと比べて尤度が どうなるか等も知りたい • 制御説明できなくてすみません
  • 23. References • D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent dynamics for planning from pixels. In International Conference on Machine Learning (ICML), 2019. • A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model, arxiv, 2019. • Levine, S. and Abbeel, P. Learning neural network policies with guided policy search under unknown dynamics. In NIPS, 2014. • Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical models with neural networks for structured representations and fast inference. In NIPS, 2016. • Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images. In NIPS, 2015 • M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsuper- vised learning of state space models from raw data. In Proceedings of ICLR, 2017.