SlideShare a Scribd company logo
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
北海道大学大学院 情報科学院 情報理工学部門
複合情報工学分野 調和系工学研究室
2022年5月20日(金) 博士後期課程 3年 吉田 拓海
論文紹介ゼミ
A Generalist Agent
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1
論文情報
• 著者
• 発表
– arxiv
• 概要
– 大規模言語モデルに触発され,テキスト出力の領域を超えた
単一の汎化エージェント(Gato)を構築
– モデルとデータについて説明,Gatoの現状の性能を報告
• 論文URL
– https://arxiv.org/abs/2205.06175
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
概要
• 単一のニューラルネットによって様々なタスクを学習
– Atariゲーム,画像キャプション生成,チャット,
実世界のロボット制御 など
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
Introduction
• 全てのタスクで単一のニューラルネットを使用するメリット
– 各ドメインに適したモデルを作成する手間が省ける
– 学習データの量と多様性が増加する
• 歴史的に見ても汎用的なモデルは
専門的なアプローチより優れている傾向にある [Sutton, 2019]
– 例:画像処理におけるCNNの登場
• 本論文で検証する仮説
– 多くのタスクに対応可能なエージェントを学習することは可能
– このエージェントが僅かな追加データでさらに多くのタスクで
成功するように適応可能
[Sutton, 2019] R. Sutton. The bitter lesson. Incomplete Ideas (blog), 13:12, 2019.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
Gato
• モデルはTransformer Decoder
• マルチモーダルなデータで学習
– 画像,テキスト,関節トルク,ボタン操作,
その他離散的および連続的な観察・動作など
Transformer
Decoder
[Text]
sentencepiece
-> embedding
[Image]
16*16 patch
-> ResNet block
[離散値]
embedding
[連続値]
mu-law encode
-> 離散化(1024)
-> embedding
教師有学習
(offline)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
モデルの学習
• 自己回帰のオフライン教師有学習
– 強化学習エージェントによって生成した学習サンプルを使用
– 画像トークンとエージェントの観測にマスクをかける
– オフライン・オンラインの強化学習も原理的には可能
• モデルはTransformer Decoder
– 1.18B parameters
• 実世界のロボット制御のためこのサイズ
• layers: 24
• embedding size: 2048
• feedforward hidden size: 8196
– steps: 1M
– batch size: 512
– token sequence length: 1024
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
Deployment
• promptによる条件付けを使用
– training時
• 各バッチの前半25%はprompt
• 同じタスク,同じソースエージェントによって生成
• promptの半分はエピソードの終わりから
– ゴール条件付けとして機能
• 残り半分はエピソードから一様にサンプリング
– evaluation時
• 目的タスクの成功デモをpromptに使用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
Deployment
➀環境の最初の観測
がシーケンスに追加
➁行動ベクトルを1トークンずつ
自己回帰的にサンプリング
➂行動を構成する全トークンが
サンプリングされると行動をデコード
④行動が環境に送られ
新しい観測が追加
⑤繰り返し
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
Dataset
• 使用したデータセット
– Agent Experience
• シミュレーション,実環境(RGB Stacking real robot)の両方を含む
– 自然言語,画像
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
Dataset
• 制御タスク(シミュレーション)
– エキスパートエージェント* によって学習サンプルを生成
• * SOTAやそれに近い強化学習エージェント
– エキスパートリターン** 80%以上でフィルタリングする
• ** エキスパートエージェントが達成可能な最大持続性能
– あるタスクについて収集された全エピソードについての
windowed average return のセットに対する最大値と定義
• 視覚・言語データ
– 次の処理で学習エピソードを作成
• 5つの(画像,テキスト)ペアをサンプリング
• それらをトークン化・連結
• 必要な学習シーケンス長にパディング・ランダムトリミング
𝑅𝑖:エピソード𝑖 の総リターン
𝑊 = min(1000,0.1 × 𝑁)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Dataset
• 制御タスク(実世界)
– ロボットのブロック積み上げ [Lee et al., 2021]
• 目標:赤を青に積む(緑は無視)
– sim2real[Lee et al., 2021]エージェントが収集したデータを使用
• シミュレーションと実環境両方
– 2つの課題
• Skill Mastery (5つのテストセットも学習可)
• Skill Generalization (5つのテストセットは学習不可)
[Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D.
Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021.
※ブロックの形には色々パターンがある
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
制御タスク(シミュレーション)の性能
• Gatoを50回ロールアウトしたスコアの平均
• エキスパートスコアとの比較
– エキスパートスコアの x% 以上を達成できたタスクの数 y
– 604タスク中450以上でエキスパートの50%以上を達成
ランダムなエージェント エキスパートエージェント
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
制御タスク(シミュレーション)の性能
• ALE Atari (全51ゲーム)
– 23のゲームで人間の平均スコアを達成
– 11のゲームで人間の2倍のスコアを達成
– ALE Atari 専門の Atariエージェント(Gato 1.18B) を学習させた
• 44のゲームで人間の平均スコアを達成
– 他7ゲームはデータ生成に使用したエキスパートも
人間の平均スコア以下
• AtariエージェントはGatoを凌駕
– Gatoをスケールアップすることで性能向上する可能性を示唆
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
制御タスク(シミュレーション)の性能
• BabyAI
– ほぼすべてのレベルでエキスパートスコア80%以上を達成
– 公開ベースライン BabyAI 1.0, BabyAI 1.1 [Hui et al., 2020]
• 単一のタスクだけで100万回のデモを使って学習させたもの
• 77%と90%
• Meta-World (全45タスク)
– 44タスクで50%以上
– 35タスクで80%以上
– 3タスクで90%以上
• Canonical DM Control Suite (全30タスク)
– 21タスクで50%以上
– 18タスクで80%以上
[Hui et al., 2020] D. Y.-T. Hui, M. Chevalier-Boisvert, D. Bahdanau, and Y. Bengio. Babyai 1.1. Preprint arXiv:2007.12770, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
モデルサイズの増加による性能
• 同等のトークン数であれば
モデルサイズが大きくなるにつれて性能向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
Out of distribution tasks の性能
• 以下の4タスクをホールドアウトし分布外タスクの評価に使用
– cartpole.swingup (DM Control Suite)
– assembly-v2 (Meta-World)
– order_of_apples_forage_simple (DM Lab)
– boxing (ALE Atari)
• 理想
– 望ましい行動のデモを含むプロンプトによる条件付け
によって新しいタスクに適応
• メモリ制約,デモのシーケンス長が非常に長い
• 現実の実験
– 限られた数(詳細不明)のデモでfine-tune
• モデルは364M ver
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
Out of distribution tasks の性能
図引用
cartpole swingup
S. Tunyasuvunakool, A. Muldal, Y. Doron, S. Liu, S. Bohez, J. Merel, T. Erez, T. Lillicrap, N. Heess, and Y. Tassa. dm_control: Software and tasks for
continuous control. Software Impacts, 6:100022, 2020.
DMLab
C. Beattie, J. Z. Leibo, D. Teplyashin, T. Ward, M. Wainwright, H. Küttler, A. Lefrancq, S. Green, V. Valdés, A. Sadik, et al. DeepMind lab. Preprint
arXiv:1612.03801, 2016.
Atari boxing
Wikipedia Contributors. Boxing (Atari 2600). Wikipedia. Published March 15, 2022. Accessed May 20, 2022.
https://en.wikipedia.org/wiki/Boxing_(Atari_2600)
?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
Out of distribution tasks の性能
• Cartpole, Meta-world assembly (左2つ)
– 画像処理不要のタスク
– どちらも同様の傾向
– no control data (画像とテキストのみで事前学習)の利点は無い
• DMLab
– same domain only data が最良
• 他の環境のデータを追加する利点は無い
• DMLabは自然に見える画像が入力されているため
– no control data の性能が高い
• Atari Boxing
– 事前学習の効果無し
• ゲームの入力画像が他のデータと視覚的に非常に異なるため
と著者らは仮定
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
制御タスク(実世界)の性能
• 制御タスク(実世界)
– ロボットのブロック積み上げ [Lee et al., 2021]
• 目標:赤を青に積む(緑は無視)
– sim2real[Lee et al., 2021]エージェントが収集したデータを使用
• シミュレーションと実環境両方
– 2つの課題
• Skill Mastery (5つのテストセットも学習可)
• Skill Generalization (5つのテストセットは学習不可)
[Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D.
Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021.
※ブロックの形には色々パターンがある
再掲
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
制御タスク(実世界)の性能
• Skill Generalization Performance (Real)
– 各テストセットごとに200エピソード評価
– BC-IMP[Lee et al., 2021]と同等の性能
• Skill Mastery Performance (Real)
– BC-IMP[Lee et al., 2021]と同等の性能
[]
[Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D.
Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
制御タスク(実世界)の性能 fine-tune
• テストセットを使用した fine-tune の性能を調査(左図)
– 先行研究[Lee et al., 2022]と同様の設定
– 10エピソードでエキスパート性能を達成
• シミュレーション環境でも fine-tune の性能を調査(右図)
– シミュレーションについては複数のモデルサイズで比較
• モデルサイズが大きいと少ないエピソードでより良い適応
• モデルサイズが大きいことで,多様な学習データから学習した
表現を使用可能であることを示唆
[Lee et al., 2022] A. X. Lee, C. M. Devin, J. T. Springenberg, Y. Zhou, T. Lampe, A. Abdolmaleki, and K. Bousmalis. How to spend your
robot time: Bridging kickstarting and offline reinforcement learning for vision-based robotic manipulation. Preprint arXiv:2205.03353,
2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
制御タスク(実世界)の性能 fine-tune
• 「青を緑に積む」ことを目的とした新しいタスクを設定
– 本来は「赤を青に積む」
– 3Dマウスを使用して実機で500回(2時間45分)のデモデータ
• fine tune用のデータに追加
– finetuneによってGatoは60%の成功率を達成
– ゼロから学習させたBCベースラインの成功率は0.5%
• 青に向かって移動し,時々拾い上げて緑に置くが
安定した積みは殆ど達成されず
本来の
タスク
新しい
タスク
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
視覚・言語タスクの性能(生成サンプル)
Text関連については定量評価なし
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
視覚・言語タスクの性能(生成サンプル)
• Gatoとのチャット
• 関連する返答をするが,表面的・事実に反することが多い
– さらなるスケーリングで改善される可能性が高い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
Broader Impact
• generalist agentはvision-language modelとしても機能
– vision-language modelで議論されているような懸念を引き継ぐ
• 加えて generalist agent は現実世界で行動可能
– ユーザがエージェントを擬人化することに繋がる
• 誤作動した場合に誤った信頼
• 悪用
– アーケードゲームの格闘を間違って伝達
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
Conclusions
• Transformer は multi-task multi-embodiment policyとして有効
– embodiment: 身体性
• また few-shot out-of-distribution task learning においても有望
• 将来的には新しい行動の学習のデフォルトの出発点となる
– prompting, fine-tuning
• スケールアップについて
– 全タスクの性能はパラメータ,データ,計算能力の
規模に応じて向上する
– より優れたハードウェアとネットワーク構造によって
リアルタイムのロボット制御機能を維持したまま
より大きなモデルを学習させることが可能になる
– こうしたスケールアップによって
有用な generalist agent を構築可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
画像と離散値の処理例
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
連続値の処理例
Mu-law Encode について
WaveNet[Oord et al., 2016]と同様
[Oord et al., 2016] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K.
Kavukcuoglu. WaveNet: A generative model for raw audio. Preprint arXiv:1609.03499, 2016.
(𝜇 = 100, 𝑀 = 256)
離散化(Discretize) について
[-1.0, 1.0]にclip
1024個のビンで離散化
整数値をシフト(textとの重複回避)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
Position Encoding について
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
Related Work
• Gatoに関連するアーキテクチャ
– LLM的なアーキテクチャが様々な制御タスクで有効性を示す
• Decision Transformer
[Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022]
• Trajectory Transformer [Janner et al., 2021]
– Perceiver IO [Jaegle et al., 2021]
• 長いシーケンスに特化したTransformer由来のアーキテクチャ
• あらゆるモダリティをバイトのシーケンスとしてモデル化可能
• generalist model がサポートするモダリティの範囲を拡大する
ために使用される可能性あり
[Chen et al., 2021b] L. Chen, K. Lu, A. Rajeswaran, K. Lee, A. Grover, M. Laskin, P. Abbeel, A. Srinivas, and I. Mordatch. Decision
transformer: Reinforcement learning via sequence modeling. Advances in Neural Information Processing Systems, 34, 2021b.
[Reid et al., 2022] M. Reid, Y. Yamada, and S. S. Gu. Can Wikipedia help offline reinforcement learning? Preprint
arXiv:2201.12122, 2022.
[Zheng et al., 2022] Q. Zheng, A. Zhang, and A. Grover. Online decision transformer. Preprint arXiv:2202.05607, 2022.
[Janner et al., 2021] M. Janner, Q. Li, and S. Levine. Offline reinforcement learning as one big sequence modeling problem.
Advances in Neural Information Processing Systems, 34, 2021.
[Jaegle et al., 2021] A. Jaegle, S. Borgeaud, J.-B. Alayrac, C. Doersch, C. Ionescu, D. Ding, S. Koppula, D. Zoran, A. Brock, E.
Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. Preprint arXiv:2107.14795, 2021.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
30
Related Work
• GPT-3[Brown et al., 2020], Gopher[Rae et al., 2021],
Flamingo[Alayrac et al., 2022], PaLM[Chowdhery et al., 2022] 等
– これらのテキスト能力を実世界の多様な環境と実施形態で
リアルタイムに行動できる1つのgeneralist agentに
統一する方法の検討が必要
[Brown et al., 2020] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry,
A. Askell, et al. Language models are few-shot learners. In Advances in Neural Information Processing
Systems, pages 1877–1901, 2020.
[Rae et al., 2021] J. W. Rae, S. Borgeaud, T. Cai, K. Millican, J. Hoffmann, F. Song, J. Aslanides, S. Henderson, R. Ring, S. Young,
et al. Scaling language models: Methods, analysis & insights from training gopher. Preprint arXiv:2112.11446, 2021.
[Alayrac et al., 2022] J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds,
R. Ring, E. Rutherford, S. Cabi, T. Han, Z. Gong, S. Samangooei, M. Monteiro, J. Menick, S. Borgeaud, A. Brock, A. Nematzadeh,
S. Sharifzadeh, M. Binkowski, R. Barreira, O. Vinyals, A. Zisserman, and K. Simonyan. Flamingo: a visual language model for
few-shot learning. Preprint arXiv:2204.14198, 2022.
[Chowdhery et al., 2022] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C.
Sutton, S. Gehrmann, et al. PaLM: Scaling language modeling with pathways. Preprint arXiv:2204.02311, 2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
31
Related Work
• generalist agent
– NPI [Reed and De Freitas, 2016]
• 単一のLSTMによって配列のソートや2つの加算など訓練
• 訓練時に見た問題よりも大きな問題に汎化できる
– 音声,画像,テキスト処理タスクを共同学習[Kaiser et al., 2017]
• 画像,音声,カテゴリデータの処理はモダリティ固有のエンコーダ
• 残りのネットワークはタスク間で共有
– “one big net for every thing”[Schmidhuber, 2018]
– 制御可能なマルチタスク言語モデル[Keskar et al., 2019]
• 言語ドメイン,エンティティ間の関係,などに従って指示
[Reed and De Freitas, 2016] S. Reed and N. De Freitas. Neural programmer-interpreters. In International Conference on
Learning Representations, 2016.
[Kaiser et al., 2017] L. Kaiser, A. N. Gomez, N. Shazeer, A. Vaswani, N. Parmar, L. Jones, and J. Uszkoreit. One model to learn
them all. Preprint arXiv:1706.05137, 2017.
[Schmidhuber, 2018] J. Schmidhuber. One big net for everything. Preprint arXiv:1802.08864, 2018.
[Keskar et al., 2019] N. S. Keskar, B. McCann, L. R. Varshney, C. Xiong, and R. Socher. CTRL: A conditional transformer
language model for controllable generation. Preprint arXiv:1909.05858, 2019.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
32
Related Work
• “Single-brain”
– “the processing function of neocortical modules is qualitatively
similar in all neocortical regions. Put shortly, there is nothing
intrinsically motor about the motor cortex, nor sensory about the
sensory cortex” [Mountcastle, 1978]
• 新皮質のモジュールの処理機能は、すべての新皮質の領域で質的に
類似している。簡単に言えば、運動野には本質的に運動的なものは
なく、感覚野には感覚的なものはない。
– 大脳皮質のニューロン列が視覚,聴覚,運動制御で
同じような振る舞いをする
– 知能の構築に必要なのは1つのモデルである
という議論を動機づけた[Hawkins and Blakeslee, 2004]
[Mountcastle, 1978] V. Mountcastle. An organizing principle for cerebral function: the unit module and the distributed
system. The mindful brain, 1978.
[Hawkins and Blakeslee, 2004] J. Hawkins and S. Blakeslee. On intelligence. Macmillan, 2004.
Ad

More Related Content

What's hot (20)

【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
Deep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
Deep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 

Similar to A Generalist Agent (20)

Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
RAPiD
RAPiDRAPiD
RAPiD
harmonylab
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
harmonylab
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
 
Ad

More from harmonylab (20)

【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究 【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究 【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
Ad

A Generalist Agent

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 北海道大学大学院 情報科学院 情報理工学部門 複合情報工学分野 調和系工学研究室 2022年5月20日(金) 博士後期課程 3年 吉田 拓海 論文紹介ゼミ A Generalist Agent
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1 論文情報 • 著者 • 発表 – arxiv • 概要 – 大規模言語モデルに触発され,テキスト出力の領域を超えた 単一の汎化エージェント(Gato)を構築 – モデルとデータについて説明,Gatoの現状の性能を報告 • 論文URL – https://arxiv.org/abs/2205.06175
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 概要 • 単一のニューラルネットによって様々なタスクを学習 – Atariゲーム,画像キャプション生成,チャット, 実世界のロボット制御 など
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 Introduction • 全てのタスクで単一のニューラルネットを使用するメリット – 各ドメインに適したモデルを作成する手間が省ける – 学習データの量と多様性が増加する • 歴史的に見ても汎用的なモデルは 専門的なアプローチより優れている傾向にある [Sutton, 2019] – 例:画像処理におけるCNNの登場 • 本論文で検証する仮説 – 多くのタスクに対応可能なエージェントを学習することは可能 – このエージェントが僅かな追加データでさらに多くのタスクで 成功するように適応可能 [Sutton, 2019] R. Sutton. The bitter lesson. Incomplete Ideas (blog), 13:12, 2019.
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 Gato • モデルはTransformer Decoder • マルチモーダルなデータで学習 – 画像,テキスト,関節トルク,ボタン操作, その他離散的および連続的な観察・動作など Transformer Decoder [Text] sentencepiece -> embedding [Image] 16*16 patch -> ResNet block [離散値] embedding [連続値] mu-law encode -> 離散化(1024) -> embedding 教師有学習 (offline)
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 モデルの学習 • 自己回帰のオフライン教師有学習 – 強化学習エージェントによって生成した学習サンプルを使用 – 画像トークンとエージェントの観測にマスクをかける – オフライン・オンラインの強化学習も原理的には可能 • モデルはTransformer Decoder – 1.18B parameters • 実世界のロボット制御のためこのサイズ • layers: 24 • embedding size: 2048 • feedforward hidden size: 8196 – steps: 1M – batch size: 512 – token sequence length: 1024
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 Deployment • promptによる条件付けを使用 – training時 • 各バッチの前半25%はprompt • 同じタスク,同じソースエージェントによって生成 • promptの半分はエピソードの終わりから – ゴール条件付けとして機能 • 残り半分はエピソードから一様にサンプリング – evaluation時 • 目的タスクの成功デモをpromptに使用
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 Deployment ➀環境の最初の観測 がシーケンスに追加 ➁行動ベクトルを1トークンずつ 自己回帰的にサンプリング ➂行動を構成する全トークンが サンプリングされると行動をデコード ④行動が環境に送られ 新しい観測が追加 ⑤繰り返し
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 Dataset • 使用したデータセット – Agent Experience • シミュレーション,実環境(RGB Stacking real robot)の両方を含む – 自然言語,画像
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 Dataset • 制御タスク(シミュレーション) – エキスパートエージェント* によって学習サンプルを生成 • * SOTAやそれに近い強化学習エージェント – エキスパートリターン** 80%以上でフィルタリングする • ** エキスパートエージェントが達成可能な最大持続性能 – あるタスクについて収集された全エピソードについての windowed average return のセットに対する最大値と定義 • 視覚・言語データ – 次の処理で学習エピソードを作成 • 5つの(画像,テキスト)ペアをサンプリング • それらをトークン化・連結 • 必要な学習シーケンス長にパディング・ランダムトリミング 𝑅𝑖:エピソード𝑖 の総リターン 𝑊 = min(1000,0.1 × 𝑁)
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Dataset • 制御タスク(実世界) – ロボットのブロック積み上げ [Lee et al., 2021] • 目標:赤を青に積む(緑は無視) – sim2real[Lee et al., 2021]エージェントが収集したデータを使用 • シミュレーションと実環境両方 – 2つの課題 • Skill Mastery (5つのテストセットも学習可) • Skill Generalization (5つのテストセットは学習不可) [Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D. Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021. ※ブロックの形には色々パターンがある
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 制御タスク(シミュレーション)の性能 • Gatoを50回ロールアウトしたスコアの平均 • エキスパートスコアとの比較 – エキスパートスコアの x% 以上を達成できたタスクの数 y – 604タスク中450以上でエキスパートの50%以上を達成 ランダムなエージェント エキスパートエージェント
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 制御タスク(シミュレーション)の性能 • ALE Atari (全51ゲーム) – 23のゲームで人間の平均スコアを達成 – 11のゲームで人間の2倍のスコアを達成 – ALE Atari 専門の Atariエージェント(Gato 1.18B) を学習させた • 44のゲームで人間の平均スコアを達成 – 他7ゲームはデータ生成に使用したエキスパートも 人間の平均スコア以下 • AtariエージェントはGatoを凌駕 – Gatoをスケールアップすることで性能向上する可能性を示唆
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 制御タスク(シミュレーション)の性能 • BabyAI – ほぼすべてのレベルでエキスパートスコア80%以上を達成 – 公開ベースライン BabyAI 1.0, BabyAI 1.1 [Hui et al., 2020] • 単一のタスクだけで100万回のデモを使って学習させたもの • 77%と90% • Meta-World (全45タスク) – 44タスクで50%以上 – 35タスクで80%以上 – 3タスクで90%以上 • Canonical DM Control Suite (全30タスク) – 21タスクで50%以上 – 18タスクで80%以上 [Hui et al., 2020] D. Y.-T. Hui, M. Chevalier-Boisvert, D. Bahdanau, and Y. Bengio. Babyai 1.1. Preprint arXiv:2007.12770, 2020.
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 モデルサイズの増加による性能 • 同等のトークン数であれば モデルサイズが大きくなるにつれて性能向上
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 Out of distribution tasks の性能 • 以下の4タスクをホールドアウトし分布外タスクの評価に使用 – cartpole.swingup (DM Control Suite) – assembly-v2 (Meta-World) – order_of_apples_forage_simple (DM Lab) – boxing (ALE Atari) • 理想 – 望ましい行動のデモを含むプロンプトによる条件付け によって新しいタスクに適応 • メモリ制約,デモのシーケンス長が非常に長い • 現実の実験 – 限られた数(詳細不明)のデモでfine-tune • モデルは364M ver
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 Out of distribution tasks の性能 図引用 cartpole swingup S. Tunyasuvunakool, A. Muldal, Y. Doron, S. Liu, S. Bohez, J. Merel, T. Erez, T. Lillicrap, N. Heess, and Y. Tassa. dm_control: Software and tasks for continuous control. Software Impacts, 6:100022, 2020. DMLab C. Beattie, J. Z. Leibo, D. Teplyashin, T. Ward, M. Wainwright, H. Küttler, A. Lefrancq, S. Green, V. Valdés, A. Sadik, et al. DeepMind lab. Preprint arXiv:1612.03801, 2016. Atari boxing Wikipedia Contributors. Boxing (Atari 2600). Wikipedia. Published March 15, 2022. Accessed May 20, 2022. https://en.wikipedia.org/wiki/Boxing_(Atari_2600) ?
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 Out of distribution tasks の性能 • Cartpole, Meta-world assembly (左2つ) – 画像処理不要のタスク – どちらも同様の傾向 – no control data (画像とテキストのみで事前学習)の利点は無い • DMLab – same domain only data が最良 • 他の環境のデータを追加する利点は無い • DMLabは自然に見える画像が入力されているため – no control data の性能が高い • Atari Boxing – 事前学習の効果無し • ゲームの入力画像が他のデータと視覚的に非常に異なるため と著者らは仮定
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 制御タスク(実世界)の性能 • 制御タスク(実世界) – ロボットのブロック積み上げ [Lee et al., 2021] • 目標:赤を青に積む(緑は無視) – sim2real[Lee et al., 2021]エージェントが収集したデータを使用 • シミュレーションと実環境両方 – 2つの課題 • Skill Mastery (5つのテストセットも学習可) • Skill Generalization (5つのテストセットは学習不可) [Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D. Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021. ※ブロックの形には色々パターンがある 再掲
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 制御タスク(実世界)の性能 • Skill Generalization Performance (Real) – 各テストセットごとに200エピソード評価 – BC-IMP[Lee et al., 2021]と同等の性能 • Skill Mastery Performance (Real) – BC-IMP[Lee et al., 2021]と同等の性能 [] [Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D. Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021.
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 制御タスク(実世界)の性能 fine-tune • テストセットを使用した fine-tune の性能を調査(左図) – 先行研究[Lee et al., 2022]と同様の設定 – 10エピソードでエキスパート性能を達成 • シミュレーション環境でも fine-tune の性能を調査(右図) – シミュレーションについては複数のモデルサイズで比較 • モデルサイズが大きいと少ないエピソードでより良い適応 • モデルサイズが大きいことで,多様な学習データから学習した 表現を使用可能であることを示唆 [Lee et al., 2022] A. X. Lee, C. M. Devin, J. T. Springenberg, Y. Zhou, T. Lampe, A. Abdolmaleki, and K. Bousmalis. How to spend your robot time: Bridging kickstarting and offline reinforcement learning for vision-based robotic manipulation. Preprint arXiv:2205.03353, 2022.
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 制御タスク(実世界)の性能 fine-tune • 「青を緑に積む」ことを目的とした新しいタスクを設定 – 本来は「赤を青に積む」 – 3Dマウスを使用して実機で500回(2時間45分)のデモデータ • fine tune用のデータに追加 – finetuneによってGatoは60%の成功率を達成 – ゼロから学習させたBCベースラインの成功率は0.5% • 青に向かって移動し,時々拾い上げて緑に置くが 安定した積みは殆ど達成されず 本来の タスク 新しい タスク
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 視覚・言語タスクの性能(生成サンプル) Text関連については定量評価なし
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 視覚・言語タスクの性能(生成サンプル) • Gatoとのチャット • 関連する返答をするが,表面的・事実に反することが多い – さらなるスケーリングで改善される可能性が高い
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 Broader Impact • generalist agentはvision-language modelとしても機能 – vision-language modelで議論されているような懸念を引き継ぐ • 加えて generalist agent は現実世界で行動可能 – ユーザがエージェントを擬人化することに繋がる • 誤作動した場合に誤った信頼 • 悪用 – アーケードゲームの格闘を間違って伝達
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 Conclusions • Transformer は multi-task multi-embodiment policyとして有効 – embodiment: 身体性 • また few-shot out-of-distribution task learning においても有望 • 将来的には新しい行動の学習のデフォルトの出発点となる – prompting, fine-tuning • スケールアップについて – 全タスクの性能はパラメータ,データ,計算能力の 規模に応じて向上する – より優れたハードウェアとネットワーク構造によって リアルタイムのロボット制御機能を維持したまま より大きなモデルを学習させることが可能になる – こうしたスケールアップによって 有用な generalist agent を構築可能
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 画像と離散値の処理例
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 連続値の処理例 Mu-law Encode について WaveNet[Oord et al., 2016]と同様 [Oord et al., 2016] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu. WaveNet: A generative model for raw audio. Preprint arXiv:1609.03499, 2016. (𝜇 = 100, 𝑀 = 256) 離散化(Discretize) について [-1.0, 1.0]にclip 1024個のビンで離散化 整数値をシフト(textとの重複回避)
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 Position Encoding について
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 Related Work • Gatoに関連するアーキテクチャ – LLM的なアーキテクチャが様々な制御タスクで有効性を示す • Decision Transformer [Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022] • Trajectory Transformer [Janner et al., 2021] – Perceiver IO [Jaegle et al., 2021] • 長いシーケンスに特化したTransformer由来のアーキテクチャ • あらゆるモダリティをバイトのシーケンスとしてモデル化可能 • generalist model がサポートするモダリティの範囲を拡大する ために使用される可能性あり [Chen et al., 2021b] L. Chen, K. Lu, A. Rajeswaran, K. Lee, A. Grover, M. Laskin, P. Abbeel, A. Srinivas, and I. Mordatch. Decision transformer: Reinforcement learning via sequence modeling. Advances in Neural Information Processing Systems, 34, 2021b. [Reid et al., 2022] M. Reid, Y. Yamada, and S. S. Gu. Can Wikipedia help offline reinforcement learning? Preprint arXiv:2201.12122, 2022. [Zheng et al., 2022] Q. Zheng, A. Zhang, and A. Grover. Online decision transformer. Preprint arXiv:2202.05607, 2022. [Janner et al., 2021] M. Janner, Q. Li, and S. Levine. Offline reinforcement learning as one big sequence modeling problem. Advances in Neural Information Processing Systems, 34, 2021. [Jaegle et al., 2021] A. Jaegle, S. Borgeaud, J.-B. Alayrac, C. Doersch, C. Ionescu, D. Ding, S. Koppula, D. Zoran, A. Brock, E. Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. Preprint arXiv:2107.14795, 2021.
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 30 Related Work • GPT-3[Brown et al., 2020], Gopher[Rae et al., 2021], Flamingo[Alayrac et al., 2022], PaLM[Chowdhery et al., 2022] 等 – これらのテキスト能力を実世界の多様な環境と実施形態で リアルタイムに行動できる1つのgeneralist agentに 統一する方法の検討が必要 [Brown et al., 2020] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, et al. Language models are few-shot learners. In Advances in Neural Information Processing Systems, pages 1877–1901, 2020. [Rae et al., 2021] J. W. Rae, S. Borgeaud, T. Cai, K. Millican, J. Hoffmann, F. Song, J. Aslanides, S. Henderson, R. Ring, S. Young, et al. Scaling language models: Methods, analysis & insights from training gopher. Preprint arXiv:2112.11446, 2021. [Alayrac et al., 2022] J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds, R. Ring, E. Rutherford, S. Cabi, T. Han, Z. Gong, S. Samangooei, M. Monteiro, J. Menick, S. Borgeaud, A. Brock, A. Nematzadeh, S. Sharifzadeh, M. Binkowski, R. Barreira, O. Vinyals, A. Zisserman, and K. Simonyan. Flamingo: a visual language model for few-shot learning. Preprint arXiv:2204.14198, 2022. [Chowdhery et al., 2022] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann, et al. PaLM: Scaling language modeling with pathways. Preprint arXiv:2204.02311, 2022.
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 31 Related Work • generalist agent – NPI [Reed and De Freitas, 2016] • 単一のLSTMによって配列のソートや2つの加算など訓練 • 訓練時に見た問題よりも大きな問題に汎化できる – 音声,画像,テキスト処理タスクを共同学習[Kaiser et al., 2017] • 画像,音声,カテゴリデータの処理はモダリティ固有のエンコーダ • 残りのネットワークはタスク間で共有 – “one big net for every thing”[Schmidhuber, 2018] – 制御可能なマルチタスク言語モデル[Keskar et al., 2019] • 言語ドメイン,エンティティ間の関係,などに従って指示 [Reed and De Freitas, 2016] S. Reed and N. De Freitas. Neural programmer-interpreters. In International Conference on Learning Representations, 2016. [Kaiser et al., 2017] L. Kaiser, A. N. Gomez, N. Shazeer, A. Vaswani, N. Parmar, L. Jones, and J. Uszkoreit. One model to learn them all. Preprint arXiv:1706.05137, 2017. [Schmidhuber, 2018] J. Schmidhuber. One big net for everything. Preprint arXiv:1802.08864, 2018. [Keskar et al., 2019] N. S. Keskar, B. McCann, L. R. Varshney, C. Xiong, and R. Socher. CTRL: A conditional transformer language model for controllable generation. Preprint arXiv:1909.05858, 2019.
  • 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 32 Related Work • “Single-brain” – “the processing function of neocortical modules is qualitatively similar in all neocortical regions. Put shortly, there is nothing intrinsically motor about the motor cortex, nor sensory about the sensory cortex” [Mountcastle, 1978] • 新皮質のモジュールの処理機能は、すべての新皮質の領域で質的に 類似している。簡単に言えば、運動野には本質的に運動的なものは なく、感覚野には感覚的なものはない。 – 大脳皮質のニューロン列が視覚,聴覚,運動制御で 同じような振る舞いをする – 知能の構築に必要なのは1つのモデルである という議論を動機づけた[Hawkins and Blakeslee, 2004] [Mountcastle, 1978] V. Mountcastle. An organizing principle for cerebral function: the unit module and the distributed system. The mindful brain, 1978. [Hawkins and Blakeslee, 2004] J. Hawkins and S. Blakeslee. On intelligence. Macmillan, 2004.