SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
論文解説:Prompting Decision Transformer for Few-Shot Policy
Generalization
Ryoichi Takase
書誌情報
2
※注釈無しの図は本論文から抜粋
採録:ICML2022
概要:
オフラインメタ強化学習において、ゼロ・少数ショット学習で未知のタスクに適応する手法を提案
Decision Transformerの枠組みへの軌跡プロンプトの導入により、
パラメータ更新を行うことなく未知のタスクへ適応し、高性能を発揮することを示した
オフライン強化学習
3
(オンライン)強化学習:
現在の方策を用いて環境と相互作用し、経験データを収集して方策を学習
オフライン強化学習:
環境と相互作用せずに、過去の経験データのみを用いて最適な方策を学習
→ 環境との相互作用が難しい分野(例、医療・ヘルスケア)への応用が期待されている
方策
環境
状態・報酬
行動
オフラインデータセット
方策
状態・行動・報酬
オフラインメタ強化学習
4
課題解決のために、オフラインメタ強化学習が提案されている
[1] Mitchell, Eric, et al. "Offline meta-reinforcement learning with advantage weighting." International Conference on Machine Learning. PMLR, 2021.
図は文献[1]より抜粋
オフラインメタ強化学習 [1]:
各タスクの経験データのみを用いる問題設定であり、
未知のタスクに対して少数データで適応できる方策を学習する
オフライン強化学習の課題:
経験データに含まれるタスクのみから学習
→ 未知のタスクに対する性能向上が課題
研究目的
5
研究目的:
自然言語処理のプロンプトのフレームワークを応用し、オフライン強化学習の未知タスクに対して、
パラメータ更新のないゼロ・少数ショット学習を実現したい
本研究では、オフラインメタ強化学習の問題設定に自然言語処理の観点からアプローチする
タスクの説明といくつかの例を入力の接頭辞として付加することで、
大規模言語モデルのパラメータを更新せずに新しいタスクに適応させる
関連研究:Decision Transformer [3]
Transformerモデルが自然言語処理の枠組みを超えて、オフライン強化学習で高性能を発揮
[3] Chen, Lili, et al. "Decision transformer: Reinforcement learning via sequence modeling." Advances in neural information processing systems 34 (2021): 15084-15097.
関連研究:プロンプト [2]
ゼロ・少数ショット学習で新しいタスクに適応するために、
プロンプトを用いたフレームワークが提案されている
[2] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
問題設定
6
𝒟𝑖:学習データセット
各学習タスク𝒯
𝑖に対応する経験データ(オフライン強化学習のデータセット)
学習タスク 𝒯𝑡𝑟𝑎𝑖𝑛
テストタスク 𝒯𝑡𝑒𝑠𝑡
𝒫𝑖:少数のデモンストレーション
学習タスク𝒯𝑡𝑟𝑎𝑖𝑛に対しては、𝒟𝑖の一部分をサンプリング
テストタスク𝒯𝑡𝑒𝑠𝑡に対しては、人間やエキスパート方策によって取得
互いに素
𝒯:タスクの集合
添え字𝑖は各タスク𝒯
𝑖 ∈ 𝒯を意味
𝒯𝑡𝑟𝑎𝑖𝑛
の経験データで学習後、少数のデモンストレーションで𝒯𝑡𝑒𝑠𝑡
のタスクに適応する
𝒯𝑡𝑒𝑠𝑡のタスクに適応する際はパラメータ更新を行わない
やりたいこと:
記号の説明:
𝒟𝑖
𝒫𝑖 𝒫𝑖
軌跡プロンプト
7
⋆:プロンプトであることを明記
𝑟: reward-to-go(現在のステップからエピソード終了までの累積報酬)
𝑠:状態
𝑎:行動
𝐾⋆:ステップ長
軌跡プロンプト:
少数のデモンストレーション𝒫𝑖からサンプリング
学習の安定性向上と過学習防止のため、確率的な軌跡プロンプトを導入
注)ステップ長が短い(実験では2~40ステップ)ため、模倣学習には使用不可
エピソード1:(𝑟1, 𝑠1, 𝑎1, 𝑟2, 𝑠2, 𝑎2, … , )
エピソード2:(𝑟1, 𝑠1, 𝑎1, 𝑟2, 𝑠2, 𝑎2, … , )
エピソード3:(𝑟1, 𝑠1, 𝑎1, 𝑟2, 𝑠2, 𝑎2, … , )
⋮
𝐽エピソード
𝐻ステップ
→ ステップ長 𝐾⋆ = 𝐽𝐻
ネットワーク構造
8
モデル構造:
Decision Transformerと類似
- 大規模言語モデルGPTの縮小版
入力データ:
𝜏𝑖
⋆
:𝐾⋆ステップの軌跡プロンプト(𝒫𝑖から取得)
𝜏𝑖:直近𝐾ステップの軌跡の履歴(𝒟𝑖から取得)
1ステップのデータは(𝑠, 𝑎, 𝑟)で1セットなので入力データ長は3(𝐾⋆ + 𝐾)
𝜏𝑖𝑛𝑝𝑢𝑡 = (𝜏𝑖
⋆
, 𝜏𝑖)
学習手順
9
③学習の安定化のために、
バッチデータℬには全ての学習タスクのデータを含める
環境と相互作用せずに、オフラインデータから方策を学習
①履歴𝜏をサンプリング
④行動予測誤差を最小化するように勾配降下法を用いて学習
軌跡プロンプトからタスクの情報を把握し、
履歴と組み合わせて次の行動を予測するように学習する
① →
② →
②プロンプトをサンプリングして𝜏⋆取得
→ 入力データ:𝜏𝑖𝑛𝑝𝑢𝑡 = [< 𝑝𝑟𝑜𝑚𝑝𝑡 >, 𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑎2, 𝑟2, … ]
③ →
④ →
テスト手順
10
環境と相互作用するオンライン環境で評価
④データを集めながら𝜏をアップデート
入力データ:
𝜏𝑖𝑛𝑝𝑢𝑡
= [< 𝑝𝑟𝑜𝑚𝑝𝑡 >, 𝑠1, 𝑎1, 𝑟1 ]
𝜏𝑖𝑛𝑝𝑢𝑡 = [< 𝑝𝑟𝑜𝑚𝑝𝑡 >, 𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑎2, 𝑟2 ]
⋮
軌跡プロンプトからタスクの情報を把握できるため、
未知のタスクでも適切な行動を決定する
① →
② →
③ →
④ →
①各エピソードの最初に履歴𝜏を初期化
②学習手順と同様にプロンプトをサンプリング
③プロンプトと直近の履歴を入力として受け取り行動を生成
環境とデータセット
11
データセット:
Cheetah-dir、Cheetah-vel、Ant-dir:
→ 文献[1]のデータセットを使用
DialとMeta-World reach-v2:
→ 熟練方策によってデータを収集
環境:
Cheetah-dir(タスク数2個):
目標方向(前後)に進むタスク
Cheetah-vel(学習タスク35個、テストタスク5個):
目標速度(一様分布により決まる)で進むタスク
Dial(学習タスク6個、テストタスク4個):
6-DOFのロボットを制御するタスク
Ant-dir(学習タスク45個、テストタスク5個):
目標方向(一様分布により決まる)に進むタスク
Meta-World reach-v2(学習タスク15個、テストタスク5個):
3次元空間でロボットを目標位置に制御するタスク
[1] Mitchell, Eric, et al. "Offline meta-reinforcement learning with advantage weighting." International Conference on Machine Learning. PMLR, 2021.
ベースラインアルゴリズム
12
Multi-task Behavior Cloning (MT-BC-Finetune):
プロンプトとreward-to-goトークンの両方を除外し、目標タスクのデータを用いてファインチューニング
→ プロンプトとreward-to-goトークンの効果を確認するために使用
Multi-task Offline RL (MT-ORL):
トレーニングセットのマルチタスクで学習
Prompt-based Behavior Cloning (Prompt-MT-BC):
トレーニングとテスト時にreward-to-goトークンを除外
→ reward-to-goトークンの効果を確認するために使用
Meta-Actor Critic with Advantage Weighting (MACAW):
オフラインメタ強化学習の手法で、サンプル効率が高いアルゴリズム
Prompt-DT(提案手法)を以下4つのベースラインと比較
Prompt-DTの性能評価
13
Reward-to-goトークンの効果:
Prompt-DTとPrompt-MT-BCは、Dialタスク以外では同程度の性能
→ プロンプトにはタスク特定に十分な情報が含まれているが、
Dialタスクのようにプロンプト自体が不十分な場合はreward-to-goトークンが学習を助ける
プロンプトとreward-to-goトークンの効果を比較:
Prompt-MT-BCの方がMT-ORLより高性能を発揮
→ reward-to-goトークンよりもプロンプトの方がタスクを特定するのに有効
実験結果:
Prompt-DT(提案手法)はベースラインよりも高性能を発揮
軌跡プロンプトの量に関する結果
14
エピソード数𝐽とステップ数𝐻を変化させ、プロンプト長𝐾⋆の影響を考察
実験結果:
Prompt-DTは、プロンプトの量に依存しない
→ 少ないステップ数でもタスク固有の情報を特定することが可能
軌跡プロンプトの質に関する結果
15
学習データセット𝒟𝑖と少数デモンストレーション𝒫𝑖のデータの質を変えた場合を検証
𝒟𝑖がexpert・medium・randomの3通り
𝒫𝑖がexpert・medium・randomの3通り
→ 3×3=9通りを検証
実験結果:
プロンプトがexpert・mediumであれば、学習データセットの質がmediumであっても最適な方策が得られる
プロンプトがrandomの場合は学習データセットがexpertでも最適な方策は得られない
分布外のタスクに関する結果
16
実験結果:
Prompt-DTは他手法と比較して高性能を発揮
→ 軌跡プロンプトが分布外のタスクに対して有効であることを示唆
Ant-dir(学習タスク8個、テストタスク3個):
3個中2個のテストタスクで目標値が学習タスクの範囲外
テストタスクの目標値を学習タスクの目標値の範囲内ではなく、
範囲外のタスク(分布外タスク)に設定して性能を検証する
まとめ
17
Prompt-DT:
オフラインメタ強化学習の問題設定において、
Decision Transformerの枠組みに軌跡プロンプトを導入
→ パラメータ更新を行うことなく未知のタスクへの適応を可能とした
実験結果:
ベースラインアルゴリズムと比較して高性能を発揮
分布外のタスクに対しても高性能を発揮
Ad

More Related Content

What's hot (20)

SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向
nlab_utokyo
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Kosuke Shinoda
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
ぱんいち すみもと
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
Deep Learning JP
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
確率的推論と行動選択
確率的推論と行動選択確率的推論と行動選択
確率的推論と行動選択
Masahiro Suzuki
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向
nlab_utokyo
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Kosuke Shinoda
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
確率的推論と行動選択
確率的推論と行動選択確率的推論と行動選択
確率的推論と行動選択
Masahiro Suzuki
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
 

Similar to 【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization (20)

[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
 
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
Deep Learning JP
 
ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4
HiroyukiTerada4
 
深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)
ssuser441cb9
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
 
レポート深層学習Day4
レポート深層学習Day4レポート深層学習Day4
レポート深層学習Day4
ssuser9d95b3
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
 
Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4
Naoki Nishikawa
 
20130223 google apps+能動的教育とコミュニケーション-open
20130223 google apps+能動的教育とコミュニケーション-open20130223 google apps+能動的教育とコミュニケーション-open
20130223 google apps+能動的教育とコミュニケーション-open
Norio Toyama
 
Dl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_eventsDl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_events
shima o
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
 
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
MILab
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
 
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Yosuke Shinya
 
20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open
Norio Toyama
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
 
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
 
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
Deep Learning JP
 
ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4
HiroyukiTerada4
 
深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)
ssuser441cb9
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
 
レポート深層学習Day4
レポート深層学習Day4レポート深層学習Day4
レポート深層学習Day4
ssuser9d95b3
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
 
Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4
Naoki Nishikawa
 
20130223 google apps+能動的教育とコミュニケーション-open
20130223 google apps+能動的教育とコミュニケーション-open20130223 google apps+能動的教育とコミュニケーション-open
20130223 google apps+能動的教育とコミュニケーション-open
Norio Toyama
 
Dl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_eventsDl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_events
shima o
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
 
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
MILab
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
 
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Yosuke Shinya
 
20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open
Norio Toyama
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
 
Ad

More from Deep Learning JP (20)

【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 
Ad

【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization