SlideShare a Scribd company logo
ディープラーニングの最新動向
強化学習とのコラボ編⑥ A3C	
2017/1/11
株式会社ウェブファーマー
大政孝充
今回取り上げるのはこれ	
[1] Volodymyr Mnih, Adria` Puigdome`nech Badia, Mehdi
Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David
Silver, and Koray Kavukcuoglu. Asynchronous methods for
deep reinforcement learning. In Proceedings of the 33rd
International Conference on Machine Learning (ICML), pp.
1928–1937, 2016.
Asynchronousな手法によりreplay memoryを廃し、DQNより
高速かつ高精度な学習を達成した!
DQNからA3Cまでのイメージ	
DQN
2013NIPs	
並列処理のしくみ
DQN
2015Nature
UNREAL
Q学習な手法
A3C
psedoな報酬
DistBrief Gorila
actore-criticな手法
Asynchronous
なDQN
強化学習の基本①	
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数	
actor-criticにおける
目的関数の勾配	
1-step Sarsaの損失関数	 Li θi( )= E r +γQ s',a';θi−1( )−Q s,a;θi( )( )
2
n-step Q学習の損失関数	 Li θi( )= E γk
rt+k
k=0
n
∑ + maxγ
a'
n
Q s',a';θi−1( )−Q s,a;θi( )
⎛
⎝
⎜
⎞
⎠
⎟
2
∇θ J θ( )= E ∇θ logπ at | st;θ( ) Rt −Vπ
st( )( )⎡
⎣
⎤
⎦
r
γ Q s,a;θi( )
Vπ
st( )
:割引率	
:報酬	
:状態 s で行動 a を取る場合の行動価値関数	
:状態 s の価値関数
強化学習の基本②	
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数	
これがDQNの場合	
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
DQNの損失関数	
:experience replay memory	
:ターゲット・ネットワーク	
D
θ−
強化学習の基本③
actor-critic法のシステム	
Value
Function	
Policy
Critic
Environment
Sutton, Berto. “Reinforcement Learning –an introduction.” 1998.	
state
reward
Actor
TD
error action
DQN(NIPs 2013)のしくみ	
Nair, et. al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
DQN(nature 2015)のしくみ	
Nair, et. al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
DistBeliefのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.	
ここでcomputer間
のやりとり
Downpour SGDのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.	
最新のparameterを
保持するmaster	
replicaから要求があったら、
その時点の最新parameterを
返す → replicaによってある
時点で使ってるparameterが
違う → asyncronous
SGDの計算が終
わったら勾配を返
す	
DistBeliefで勾配計
算	
ミニバッチをreplicaご
とに分割
Sandblaster L-BFGSのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.
Gorilaのしくみ	
A. Nair, et al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
Gorilaのしくみ ver.1
共有のreplay memoryを使用	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
ActorのcomputerとLearnerの
computer1つずつで1セットとする	
Actor	 Learner	
全部でNセット	
replay memoryは1
つを共有する	
Replay
Memory
Gorilaのしくみ ver.2(bundled mode)
個別のreplay memoryを使用	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
・
・
・	
ActorのcomputerとLearnerの
computer1つずつで1セットとする	
Actor	 Learner	
全部でNセット	
replay memoryはそれぞれ
のcomputerに配置
Gorila(bundled mode)から
asynchronousなDQNへの変更点①	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
・
・
・	
CPU上の1つのスレッドに対応	
Actor	 Learner	
replay memoryを廃止
Gorila(bundled mode)から
asynchronousなDQNへの変更点②	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
代わりに勾配を溜め込む	
gradients	
gradients
Gorila(bundled mode)から
asynchronousなDQNへの変更点③	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server for Q-Network	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
gradients	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
Target Q-Network用のserverを作る
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ①	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
θをコピー	   をコピー	
gradients	
gradients	
θ−
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ②	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
状態 s で行動 a をとり、s’ や r を観測	
gradients
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ③	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
Lossを計算
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ④	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
勾配を溜め込む	 dθ ← dθ +
∂L θ( )
∂θ
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ⑤	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
定期的に勾配の積算値  を送り学習する	dθ
A3Cのしくみ	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
A3Cの流れ①	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θをコピー	   をコピー	θv
θ '
θ '
A3Cの流れ②	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
   ステップ間、状態   で方策        
に従い行動   をとる。
tmax π at | st;θ '( )
at
st
V st,θv '( ) を計算する
θ '
θ '
A3Cの流れ③	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
とそれぞれの勾
配を計算する	
R = γi−1
rt−i
i=1
tmax
∑ +V st,θv '( )
dθ = ∇θ ' logπ ai | si;θ '( ) R −V si;θv '( )( )
dθv = dθv +
∂ R −V si;θv '( )( )
2
∂θv '
A3Cの流れ④	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
それぞれの勾配を溜め込む
A3Cの流れ④	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
ごとに勾配の積算値  を送り学習	dθtmax ごとに勾配の積算値  を送り学習	tmax dθv
速度の比較	
DQNとasynchronousな4つの手法との速度に関する比較
asynchronousな手法は概ねDQNより学習速度が早いが、特
にA3Cが早い
速度の比較	
asynchronousな4つの手法において、CPUのスレッドを増や
した場合の速度の増加率
1-step Q学習や 1-step SARSAは増加率が高い
性能の比較	
DQNとasynchronousな4つの手法との得点に関する比較
asynchronousな手法は概ねDQNを上回る
結論	
l  asynchronousな4つの手法はDQNよりも学習速度が早い。
特にA3Cが早い。
l  asynchronousな4つの手法はDQNよりも概ね得点が高い
Ad

More Related Content

What's hot (20)

【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
introduction to Dueling network
introduction to Dueling networkintroduction to Dueling network
introduction to Dueling network
WEBFARMER. ltd.
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
introduction to Dueling network
introduction to Dueling networkintroduction to Dueling network
introduction to Dueling network
WEBFARMER. ltd.
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 

Viewers also liked (11)

A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
Taehoon Kim
 
A3C解説
A3C解説A3C解説
A3C解説
harmonylab
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
mooopan
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
John Liu
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
nishio
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについて
Takamasa Mitsuji
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Sotetsu KOYAMADA(小山田創哲)
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
nishio
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
Taehoon Kim
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
mooopan
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
John Liu
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
nishio
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについて
Takamasa Mitsuji
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
nishio
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
 
Ad

Similar to Introduction to A3C model (20)

DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
Hiroki Nakahara
 
KDDCUP2020 ML Track2
KDDCUP2020 ML Track2KDDCUP2020 ML Track2
KDDCUP2020 ML Track2
NTTDOCOMO-ServiceInnovation
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
Deep Learning Lab(ディープラーニング・ラボ)
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectCompute
dasyprocta
 
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とはKubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
株式会社クライム
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめ
NVIDIA Japan
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
NVIDIA Japan
 
Tf勉強会(4)
Tf勉強会(4)Tf勉強会(4)
Tf勉強会(4)
tak9029
 
Implementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASICImplementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASIC
Kazuhiro Hishinuma
 
ADVENTURE_Thermalの概要
ADVENTURE_Thermalの概要ADVENTURE_Thermalの概要
ADVENTURE_Thermalの概要
ADVENTURE Project
 
並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js
Yoshiiro Ueno
 
Math works gdlc2019
Math works gdlc2019Math works gdlc2019
Math works gdlc2019
Hirokuni Uchida
 
Kobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテルKobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテル
tnoda
 
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
masayukitakagi
 
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
Preferred Networks
 
Fusion4dIntroduction
Fusion4dIntroductionFusion4dIntroduction
Fusion4dIntroduction
Hideki Iwasawa
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
Hiroki Nakahara
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectCompute
dasyprocta
 
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とはKubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
株式会社クライム
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめ
NVIDIA Japan
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
NVIDIA Japan
 
Tf勉強会(4)
Tf勉強会(4)Tf勉強会(4)
Tf勉強会(4)
tak9029
 
Implementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASICImplementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASIC
Kazuhiro Hishinuma
 
並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js
Yoshiiro Ueno
 
Kobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテルKobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテル
tnoda
 
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
masayukitakagi
 
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
Preferred Networks
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
 
Ad

More from WEBFARMER. ltd. (20)

2024/8/3 LINEヤフーにて開催 cv勉強会@関東_大政孝充資料.pdf
2024/8/3 LINEヤフーにて開催 cv勉強会@関東_大政孝充資料.pdf2024/8/3 LINEヤフーにて開催 cv勉強会@関東_大政孝充資料.pdf
2024/8/3 LINEヤフーにて開催 cv勉強会@関東_大政孝充資料.pdf
WEBFARMER. ltd.
 
論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル
WEBFARMER. ltd.
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
WEBFARMER. ltd.
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
WEBFARMER. ltd.
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdf
WEBFARMER. ltd.
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)
WEBFARMER. ltd.
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料
WEBFARMER. ltd.
 
SLAM_study_document
SLAM_study_documentSLAM_study_document
SLAM_study_document
WEBFARMER. ltd.
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltd
WEBFARMER. ltd.
 
Nips20180127
Nips20180127Nips20180127
Nips20180127
WEBFARMER. ltd.
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
WEBFARMER. ltd.
 
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasaDRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
WEBFARMER. ltd.
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
WEBFARMER. ltd.
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)
WEBFARMER. ltd.
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN model
WEBFARMER. ltd.
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
WEBFARMER. ltd.
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
WEBFARMER. ltd.
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229
WEBFARMER. ltd.
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning Machine
WEBFARMER. ltd.
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)
WEBFARMER. ltd.
 
2024/8/3 LINEヤフーにて開催 cv勉強会@関東_大政孝充資料.pdf
2024/8/3 LINEヤフーにて開催 cv勉強会@関東_大政孝充資料.pdf2024/8/3 LINEヤフーにて開催 cv勉強会@関東_大政孝充資料.pdf
2024/8/3 LINEヤフーにて開催 cv勉強会@関東_大政孝充資料.pdf
WEBFARMER. ltd.
 
論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル
WEBFARMER. ltd.
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
WEBFARMER. ltd.
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
WEBFARMER. ltd.
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdf
WEBFARMER. ltd.
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)
WEBFARMER. ltd.
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料
WEBFARMER. ltd.
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltd
WEBFARMER. ltd.
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
WEBFARMER. ltd.
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
WEBFARMER. ltd.
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)
WEBFARMER. ltd.
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN model
WEBFARMER. ltd.
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
WEBFARMER. ltd.
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
WEBFARMER. ltd.
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229
WEBFARMER. ltd.
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning Machine
WEBFARMER. ltd.
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)
WEBFARMER. ltd.
 

Introduction to A3C model