A Generalist Agent

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
北海道大学大学院情報科学院情報理工学部門
複合情報工学分野調和系工学研究室
2022年5月20日(金) 博士後期課程 3年吉田拓海
論文紹介ゼミ
A Generalist Agent

1
論文情報
• 著者
• 発表
– arxiv
• 概要
– 大規模言語モデルに触発され，テキスト出力の領域を超えた
単一の汎化エージェント（Gato）を構築
– モデルとデータについて説明，Gatoの現状の性能を報告
• 論文URL
– https://arxiv.org/abs/2205.06175

2
概要
• 単一のニューラルネットによって様々なタスクを学習
– Atariゲーム，画像キャプション生成，チャット，
実世界のロボット制御など

3
Introduction
• 全てのタスクで単一のニューラルネットを使用するメリット
– 各ドメインに適したモデルを作成する手間が省ける
– 学習データの量と多様性が増加する
• 歴史的に見ても汎用的なモデルは
専門的なアプローチより優れている傾向にある [Sutton, 2019]
– 例：画像処理におけるCNNの登場
• 本論文で検証する仮説
– 多くのタスクに対応可能なエージェントを学習することは可能
– このエージェントが僅かな追加データでさらに多くのタスクで
成功するように適応可能
[Sutton, 2019] R. Sutton. The bitter lesson. Incomplete Ideas (blog), 13:12, 2019.

4
Gato
• モデルはTransformer Decoder
• マルチモーダルなデータで学習
– 画像，テキスト，関節トルク，ボタン操作，
その他離散的および連続的な観察・動作など
Transformer
Decoder
[Text]
sentencepiece
-> embedding
[Image]
16*16 patch
-> ResNet block
[離散値]
embedding
[連続値]
mu-law encode
-> 離散化(1024)
-> embedding
教師有学習
(offline)

5
モデルの学習
• 自己回帰のオフライン教師有学習
– 強化学習エージェントによって生成した学習サンプルを使用
– 画像トークンとエージェントの観測にマスクをかける
– オフライン・オンラインの強化学習も原理的には可能
• モデルはTransformer Decoder
– 1.18B parameters
• 実世界のロボット制御のためこのサイズ
• layers: 24
• embedding size: 2048
• feedforward hidden size: 8196
– steps: 1M
– batch size: 512
– token sequence length: 1024

6
Deployment
• promptによる条件付けを使用
– training時
• 各バッチの前半25％はprompt
• 同じタスク，同じソースエージェントによって生成
• promptの半分はエピソードの終わりから
– ゴール条件付けとして機能
• 残り半分はエピソードから一様にサンプリング
– evaluation時
• 目的タスクの成功デモをpromptに使用

7
Deployment
➀環境の最初の観測
がシーケンスに追加
➁行動ベクトルを1トークンずつ
自己回帰的にサンプリング
➂行動を構成する全トークンが
サンプリングされると行動をデコード
④行動が環境に送られ
新しい観測が追加
⑤繰り返し

8
Dataset
• 使用したデータセット
– Agent Experience
• シミュレーション，実環境(RGB Stacking real robot)の両方を含む
– 自然言語，画像

9
Dataset
• 制御タスク（シミュレーション）
– エキスパートエージェント* によって学習サンプルを生成
• * SOTAやそれに近い強化学習エージェント
– エキスパートリターン** 80%以上でフィルタリングする
• ** エキスパートエージェントが達成可能な最大持続性能
– あるタスクについて収集された全エピソードについての
windowed average return のセットに対する最大値と定義
• 視覚・言語データ
– 次の処理で学習エピソードを作成
• 5つの（画像，テキスト）ペアをサンプリング
• それらをトークン化・連結
• 必要な学習シーケンス長にパディング・ランダムトリミング
𝑅𝑖：エピソード𝑖 の総リターン
𝑊 = min(1000,0.1 × 𝑁)

10
Dataset
• 制御タスク（実世界）
– ロボットのブロック積み上げ [Lee et al., 2021]
• 目標：赤を青に積む（緑は無視）
– sim2real[Lee et al., 2021]エージェントが収集したデータを使用
• シミュレーションと実環境両方
– 2つの課題
• Skill Mastery (5つのテストセットも学習可)
• Skill Generalization (5つのテストセットは学習不可)
[Lee et al., 2021] A. X. Lee, C. M. Devin, Y. Zhou, T. Lampe, K. Bousmalis, J. T. Springenberg, A. Byravan, A. Abdolmaleki, N. Gileadi, D.
Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Conference on Robot Learning, 2021.
※ブロックの形には色々パターンがある

11
制御タスク（シミュレーション）の性能
• Gatoを50回ロールアウトしたスコアの平均
• エキスパートスコアとの比較
– エキスパートスコアの x% 以上を達成できたタスクの数 y
– 604タスク中450以上でエキスパートの50％以上を達成
ランダムなエージェントエキスパートエージェント

12
• ALE Atari (全51ゲーム)
– 23のゲームで人間の平均スコアを達成
– 11のゲームで人間の2倍のスコアを達成
– ALE Atari 専門の Atariエージェント(Gato 1.18B) を学習させた
• 44のゲームで人間の平均スコアを達成
– 他7ゲームはデータ生成に使用したエキスパートも
人間の平均スコア以下
• AtariエージェントはGatoを凌駕
– Gatoをスケールアップすることで性能向上する可能性を示唆

13
• BabyAI
– ほぼすべてのレベルでエキスパートスコア80%以上を達成
– 公開ベースライン BabyAI 1.0, BabyAI 1.1 [Hui et al., 2020]
• 単一のタスクだけで100万回のデモを使って学習させたもの
• 77%と90%
• Meta-World (全45タスク)
– 44タスクで50%以上
– 35タスクで80％以上
• Canonical DM Control Suite (全30タスク)
– 18タスクで80%以上
[Hui et al., 2020] D. Y.-T. Hui, M. Chevalier-Boisvert, D. Bahdanau, and Y. Bengio. Babyai 1.1. Preprint arXiv:2007.12770, 2020.

14
モデルサイズの増加による性能
• 同等のトークン数であれば
モデルサイズが大きくなるにつれて性能向上

15
Out of distribution tasks の性能
• 以下の4タスクをホールドアウトし分布外タスクの評価に使用
– cartpole.swingup (DM Control Suite)
– assembly-v2 (Meta-World)
– order_of_apples_forage_simple (DM Lab)
– boxing (ALE Atari)
• 理想
– 望ましい行動のデモを含むプロンプトによる条件付け
によって新しいタスクに適応
• メモリ制約，デモのシーケンス長が非常に長い
• 現実の実験
– 限られた数（詳細不明）のデモでfine-tune
• モデルは364M ver

16
図引用
cartpole swingup
S. Tunyasuvunakool, A. Muldal, Y. Doron, S. Liu, S. Bohez, J. Merel, T. Erez, T. Lillicrap, N. Heess, and Y. Tassa. dm_control: Software and tasks for
continuous control. Software Impacts, 6:100022, 2020.
DMLab
C. Beattie, J. Z. Leibo, D. Teplyashin, T. Ward, M. Wainwright, H. Küttler, A. Lefrancq, S. Green, V. Valdés, A. Sadik, et al. DeepMind lab. Preprint
arXiv:1612.03801, 2016.
Atari boxing
Wikipedia Contributors. Boxing (Atari 2600). Wikipedia. Published March 15, 2022. Accessed May 20, 2022.
https://en.wikipedia.org/wiki/Boxing_(Atari_2600)
?

17
• Cartpole, Meta-world assembly (左2つ)
– 画像処理不要のタスク
– どちらも同様の傾向
– no control data (画像とテキストのみで事前学習)の利点は無い
• DMLab
– same domain only data が最良
• 他の環境のデータを追加する利点は無い
• DMLabは自然に見える画像が入力されているため
– no control data の性能が高い
• Atari Boxing
– 事前学習の効果無し
• ゲームの入力画像が他のデータと視覚的に非常に異なるため
と著者らは仮定

18
制御タスク（実世界）の性能
• 制御タスク（実世界）
– ロボットのブロック積み上げ [Lee et al., 2021]
• 目標：赤を青に積む（緑は無視）
– sim2real[Lee et al., 2021]エージェントが収集したデータを使用
• シミュレーションと実環境両方
– 2つの課題
• Skill Mastery (5つのテストセットも学習可)
• Skill Generalization (5つのテストセットは学習不可)
※ブロックの形には色々パターンがある
再掲

19
制御タスク（実世界）の性能
• Skill Generalization Performance (Real)
– 各テストセットごとに200エピソード評価
– BC-IMP[Lee et al., 2021]と同等の性能
• Skill Mastery Performance (Real)
– BC-IMP[Lee et al., 2021]と同等の性能
[]

20
制御タスク（実世界）の性能 fine-tune
• テストセットを使用した fine-tune の性能を調査（左図）
– 先行研究[Lee et al., 2022]と同様の設定
– 10エピソードでエキスパート性能を達成
• シミュレーション環境でも fine-tune の性能を調査（右図）
– シミュレーションについては複数のモデルサイズで比較
• モデルサイズが大きいと少ないエピソードでより良い適応
• モデルサイズが大きいことで，多様な学習データから学習した
表現を使用可能であることを示唆
[Lee et al., 2022] A. X. Lee, C. M. Devin, J. T. Springenberg, Y. Zhou, T. Lampe, A. Abdolmaleki, and K. Bousmalis. How to spend your
robot time: Bridging kickstarting and offline reinforcement learning for vision-based robotic manipulation. Preprint arXiv:2205.03353,
2022.

21
制御タスク（実世界）の性能 fine-tune
• 「青を緑に積む」ことを目的とした新しいタスクを設定
– 本来は「赤を青に積む」
– ３Dマウスを使用して実機で500回（2時間45分）のデモデータ
• fine tune用のデータに追加
– finetuneによってGatoは60％の成功率を達成
– ゼロから学習させたBCベースラインの成功率は0.5%
• 青に向かって移動し，時々拾い上げて緑に置くが
安定した積みは殆ど達成されず
本来の
タスク
新しい
タスク

22
視覚・言語タスクの性能（生成サンプル）
Text関連については定量評価なし

23
視覚・言語タスクの性能（生成サンプル）
• Gatoとのチャット
• 関連する返答をするが，表面的・事実に反することが多い
– さらなるスケーリングで改善される可能性が高い

24
Broader Impact
• generalist agentはvision-language modelとしても機能
– vision-language modelで議論されているような懸念を引き継ぐ
• 加えて generalist agent は現実世界で行動可能
– ユーザがエージェントを擬人化することに繋がる
• 誤作動した場合に誤った信頼
• 悪用
– アーケードゲームの格闘を間違って伝達

25
Conclusions
• Transformer は multi-task multi-embodiment policyとして有効
– embodiment: 身体性
• また few-shot out-of-distribution task learning においても有望
• 将来的には新しい行動の学習のデフォルトの出発点となる
– prompting, fine-tuning
• スケールアップについて
– 全タスクの性能はパラメータ，データ，計算能力の
規模に応じて向上する
– より優れたハードウェアとネットワーク構造によって
リアルタイムのロボット制御機能を維持したまま
より大きなモデルを学習させることが可能になる
– こうしたスケールアップによって
有用な generalist agent を構築可能

26
画像と離散値の処理例

27
連続値の処理例
Mu-law Encode について
WaveNet[Oord et al., 2016]と同様
[Oord et al., 2016] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K.
Kavukcuoglu. WaveNet: A generative model for raw audio. Preprint arXiv:1609.03499, 2016.
(𝜇 = 100, 𝑀 = 256)
離散化(Discretize) について
[-1.0, 1.0]にclip
1024個のビンで離散化
整数値をシフト(textとの重複回避)

28
Position Encoding について

29
Related Work
• Gatoに関連するアーキテクチャ
– LLM的なアーキテクチャが様々な制御タスクで有効性を示す
• Decision Transformer
[Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022]
• Trajectory Transformer [Janner et al., 2021]
– Perceiver IO [Jaegle et al., 2021]
• 長いシーケンスに特化したTransformer由来のアーキテクチャ
• あらゆるモダリティをバイトのシーケンスとしてモデル化可能
• generalist model がサポートするモダリティの範囲を拡大する
ために使用される可能性あり
[Chen et al., 2021b] L. Chen, K. Lu, A. Rajeswaran, K. Lee, A. Grover, M. Laskin, P. Abbeel, A. Srinivas, and I. Mordatch. Decision
transformer: Reinforcement learning via sequence modeling. Advances in Neural Information Processing Systems, 34, 2021b.
[Reid et al., 2022] M. Reid, Y. Yamada, and S. S. Gu. Can Wikipedia help offline reinforcement learning? Preprint
arXiv:2201.12122, 2022.
[Zheng et al., 2022] Q. Zheng, A. Zhang, and A. Grover. Online decision transformer. Preprint arXiv:2202.05607, 2022.
[Janner et al., 2021] M. Janner, Q. Li, and S. Levine. Offline reinforcement learning as one big sequence modeling problem.
Advances in Neural Information Processing Systems, 34, 2021.
[Jaegle et al., 2021] A. Jaegle, S. Borgeaud, J.-B. Alayrac, C. Doersch, C. Ionescu, D. Ding, S. Koppula, D. Zoran, A. Brock, E.
Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. Preprint arXiv:2107.14795, 2021.

30
Related Work
• GPT-3[Brown et al., 2020], Gopher[Rae et al., 2021],
Flamingo[Alayrac et al., 2022], PaLM[Chowdhery et al., 2022] 等
– これらのテキスト能力を実世界の多様な環境と実施形態で
リアルタイムに行動できる１つのgeneralist agentに
統一する方法の検討が必要
[Brown et al., 2020] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry,
A. Askell, et al. Language models are few-shot learners. In Advances in Neural Information Processing
Systems, pages 1877–1901, 2020.
[Rae et al., 2021] J. W. Rae, S. Borgeaud, T. Cai, K. Millican, J. Hoffmann, F. Song, J. Aslanides, S. Henderson, R. Ring, S. Young,
et al. Scaling language models: Methods, analysis & insights from training gopher. Preprint arXiv:2112.11446, 2021.
[Alayrac et al., 2022] J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds,
R. Ring, E. Rutherford, S. Cabi, T. Han, Z. Gong, S. Samangooei, M. Monteiro, J. Menick, S. Borgeaud, A. Brock, A. Nematzadeh,
S. Sharifzadeh, M. Binkowski, R. Barreira, O. Vinyals, A. Zisserman, and K. Simonyan. Flamingo: a visual language model for
few-shot learning. Preprint arXiv:2204.14198, 2022.
[Chowdhery et al., 2022] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C.
Sutton, S. Gehrmann, et al. PaLM: Scaling language modeling with pathways. Preprint arXiv:2204.02311, 2022.

31
Related Work
• generalist agent
– NPI [Reed and De Freitas, 2016]
• 単一のLSTMによって配列のソートや2つの加算など訓練
• 訓練時に見た問題よりも大きな問題に汎化できる
– 音声，画像，テキスト処理タスクを共同学習[Kaiser et al., 2017]
• 画像，音声，カテゴリデータの処理はモダリティ固有のエンコーダ
• 残りのネットワークはタスク間で共有
– “one big net for every thing”[Schmidhuber, 2018]
– 制御可能なマルチタスク言語モデル[Keskar et al., 2019]
• 言語ドメイン，エンティティ間の関係，などに従って指示
[Reed and De Freitas, 2016] S. Reed and N. De Freitas. Neural programmer-interpreters. In International Conference on
Learning Representations, 2016.
[Kaiser et al., 2017] L. Kaiser, A. N. Gomez, N. Shazeer, A. Vaswani, N. Parmar, L. Jones, and J. Uszkoreit. One model to learn
them all. Preprint arXiv:1706.05137, 2017.
[Schmidhuber, 2018] J. Schmidhuber. One big net for everything. Preprint arXiv:1802.08864, 2018.
[Keskar et al., 2019] N. S. Keskar, B. McCann, L. R. Varshney, C. Xiong, and R. Socher. CTRL: A conditional transformer
language model for controllable generation. Preprint arXiv:1909.05858, 2019.

32
Related Work
• “Single-brain”
– “the processing function of neocortical modules is qualitatively
similar in all neocortical regions. Put shortly, there is nothing
intrinsically motor about the motor cortex, nor sensory about the
sensory cortex” [Mountcastle, 1978]
• 新皮質のモジュールの処理機能は、すべての新皮質の領域で質的に
類似している。簡単に言えば、運動野には本質的に運動的なものは
なく、感覚野には感覚的なものはない。
– 大脳皮質のニューロン列が視覚，聴覚，運動制御で
同じような振る舞いをする
– 知能の構築に必要なのは１つのモデルである
という議論を動機づけた[Hawkins and Blakeslee, 2004]
[Mountcastle, 1978] V. Mountcastle. An organizing principle for cerebral function: the unit module and the distributed
system. The mindful brain, 1978.
[Hawkins and Blakeslee, 2004] J. Hawkins and S. Blakeslee. On intelligence. Macmillan, 2004.

A Generalist Agent

Recommended

More Related Content

What's hot (20)

Similar to A Generalist Agent (20)

More from harmonylab (20)

A Generalist Agent