Predictron

0
The Predictron: End-To-End Leaning and Planning
幡本昂平
2018/8/20
DLゼミ

1
1書誌情報
• Author
• David Silver · Hado van Hasselt · Matteo Hessel · Tom Schaul · Arthur Guez · Tim Harley ·
Gabriel Dulac-Arnold · David Reichert · Neil Rabinowitz · Andre Barreto · Thomas Degris
(DeepMind)
• ICML2017
• (arxiv2016/12/28)
• URL
• https://icml.cc/Conferences/2017/Schedule?showParentSession=1427
• https://arxiv.org/abs/1612.08810

2
2論文概要
• end-to-endなモデルベース強化学習のアーキテクチャであるpredictronを提案
• 迷路とビリヤードに適用した際に通常のDNNよりも正確な予測を達成

3
3モデルフリー強化学習とモデルベース強化学習
強化学習には大きく2つの種類が存在
モデルフリーモデルベース
環境
行動
観測
エージェント環境
行動
観測
エージェント環境のモデル
行動決定
シミュレート
行動の価値を
直接近似する
DQNなど本論文など

4
4従来のモデルベース強化学習
• モデルベース強化学習の構成要素
1. モデルの作成
2. モデルを使ったプランニング
• 一般的にこれらは独立に扱われる
• モデルが最終的な目的にはあっていないこともあった
predictronではこれらの手続きをend-to-endなものに統合する

5
5predictronで作成されるモデル
• モデルベース強化学習の構成要素
1. モデルの作成
2. モデルを使ったプランニング
• 正確な予測を行うことがpredictronで作るモデルの目標
• 例えばゲームにおいて最適な意思決定を行うのに必要なのはスコアを正確に
予測できること
• 作成モデルが実際の環境とは異なっていても，それを用いて正確な予測ができればよい
• 論文中ではabstractと表現
1で作るモデルに必要なのは
2を実行するのに適しているということ

6
6Predictron architecture
• 4つの要素から構成
1. 状態エンコーダ
2. モデル
3. 価値観数
4. 累積報酬からの実際の値の見積もり
s
状態エンコーダ
s=f(s)
s
モデル(MRP)
s’, r, γ = m(s,β)
価値関数
v = v(s)
accumulator
外部状態内部状態
s’ ・・・
次状態
内部報酬
r γ
割引率
v
内部価値
・・・ g
推定値

7
7状態エンコーダ
• 状態エンコーダ
• 生の入力sを内部の状態表現sにエンコードする
• 入力は観測の履歴など
s
s=f(s)
s
モデル(MRP)
s’, r, γ = m(s,β)
価値関数
v = v(s)
accumulator
s’ ・・・
次状態
内部報酬
r γ
割引率
v
内部価値
・・・ g
推定値

8
8モデル
• モデル
• 内部状態sから次状態s’, 内部報酬r, 割引率γを求める
• βはノイズ
s
s=f(s)
s
モデル(MRP)
s’, r, γ = m(s,β)
価値関数
v = v(s)
accumulator
s’ ・・・
次状態
内部報酬
r γ
割引率
v
内部価値
・・・ g
推定値

9
9価値観数
• 価値関数
• ある状態以後の内部報酬を表現
• 価値関数を求めるまでのステップの繰り返しをplanningとよぶ
s
s=f(s)
s
モデル(MRP)
s’, r, γ = m(s,β)
価値関数
v = v(s)
accumulator
s’ ・・・
次状態
内部報酬
r γ
割引率
v
内部価値
・・・ g
推定値

10
10k-step predictron
最終的な推定値を求める際の累積和計算は2通り
• k-step predictron
• kステップのモデルの計算を行い，最終的な推定値𝑔 𝑘のみを利用する
0-ステップ 1-ステップ 2-ステップ
predictronのreturnの計算式

11
11λ-weighted predictron
最終的な推定値を求める際の累積和計算は2通り
• λ-weighted predictron
• k-stepのpredictronのreturn(preturn)を組み合わせて出力

12
12predictronの学習
内部パラメータ𝜃の更新を考える
k-stepの場合 λの場合
𝜃の更新
λの更新
平均化ではなく重み付けを用いても良い
これらの勾配を用いてSGD等でパラメータ更新を
おこなう
平均2乗誤差

13
13consistency updates
λバージョンのpredictronではk-stepの出力を束ねて重み付けした𝑔λ
を用いて，各ステップの出力に基づい
た更新を行うことで半教師ありのようなパラメータ更新をおこなうことができる
教師を必要としない

14
14実験 Learning sequential plans
迷路の簡単な方策を推定できるか?
• 13×13の迷路で簡単な手続き的方策に基づく移動の
軌跡g(13×13)を推定する
• 訓練誤差はほぼ0に
• ステップを重ねるごとに軌跡が進んでいく様子がわかる
• 内部で手続き的な方策を学習できている
• 簡単なものは少ないステップで推定可能(一番右)

15
15実験 predictron architecture の有効性
いくつかのpredictronの変形を比較し，各機能の有効性を確かめる
• 実験で取り扱う問題
• ランダムに生成した20×20の迷路で左上の点から右下の点に到達可能であるかを予測する
• 推定したい値についての記述はないが0, 1?

16
16実験 predictron architecture の有効性
• 実験で取り扱う問題
• ビリヤードで5フレームを入力として将来のイベントを予測する
• 考えるイベント
• 他のボールとの衝突
• テーブルの端との衝突
• 各象限への侵入(×4)
• 各象限にとどまる(×4)
• ポケットに入る(×4)
計14×4のイベントに5つの割引係数(discount factor)
{0, 0.5, 0.9, 0.98, 1}を組み合わせた疑似報酬を設定
最終的に予測するのは様々なタイムスパンにおける
累積割引報酬和

17
17実験 predictron architectureの有効性2
MRPモデルの構造を使うかどうか
使わない場合はただのNN
k-stepかλかどうか

18
18実験結果 predictron architecture の有効性
どの構成要素も取り入れたほうが良い結果を示した

19
19ディープラーニングを用いた手法との比較
数種類のディープラーニングアーキテクチャとの比較の結果，有効性を確認
内部モデルを
使うかどうか
リカレント構造を
使うかどうか

20
20半教師あり学習
consistency updatesを用いて半教師あり学習をおこなう
• 1教師あたりのconsistency updatesの回数を0,1,9の三種類にして実験
• 回数が増えるに連れ単調に良くなっている

21
21adaptive depthに関する分析
迷路の経路推定問題において簡単な経路の際は少ないステップ数で予測できていた
→問題の複雑さにステップ数(depth)は適応しているのではないか?
• 問題のタイプごとに最もよいステップ数(depth)の分布を算出
• 問題ごとにdepthの分布は異なる
• real-world discountsごとに一定の傾向
• 強いピークは出ていない
衝突端との衝突象限への侵入ポケットへの侵入象限にとどまる

22
22predictronを用いた意思決定
ビリヤードにおいて異なる初期配置のセットを与えたときにどの配置が一番ボールがポケットに
入りやすいかをPredictronを用いて予測する
deep convolutional networkでは50回中10回だったのに対し
predictronでは50回中27回ポケットにボールが入った
https://www.youtube.com/watch?v=BeaLdaN2C3Q&feature=youtu.be
predictronでロスが小さくなることは意思決定にも有用

23
23まとめ
• 内部モデルを通じて外部の値の推定をおこなう微分可能なアーキテクチャ
• 内部モデルはabstract
• 複数の仕組みを一つのアーキテクチャに組み込み，従来のネットワークアーキテクチャよりも
良い精度を実現
• 今回は制御のできない環境における予測に取り組んだが，今後はQ-networkにpredictronを用いる
など制御のできる環境にも適用させたい
• MRPではなくMDPの学習が可能かも興味がある(著者談)

24
24参考文献
• The Predictron: End-To-End Learning and Planning
• David Silver · Hado van Hasselt · Matteo Hessel · Tom Schaul · Arthur Guez · Tim Harley ·
Gabriel Dulac-Arnold · David Reichert · Neil Rabinowitz · Andre Barreto · Thomas Degris
• ICML2017
• https://vimeo.com/238243832

Predictron

Recommended

More Related Content

What's hot (20)

Similar to Predictron (20)

More from harmonylab (20)

Predictron