SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
Code as Policies: Language Model Programs
for Embodied Control
Keno Harada, M2, the University of Tokyo
http://deeplearning.jp/
書誌情報
論文名 Code as Policies: Language Model Programs for Embodied Control
著者 Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian
Ichter, Pete Florence, Andy Zeng (Robotics at Google)
概要 大規模言語モデルによるプログラム生成を用いて、指示文のコメントと小サンプ
ルのプロンプトからロボットの行動方策のプログラムを生成. あらかじめ準備する
行動、認識APIとプロンプト文を工夫することによりPerception-actionのフィー
ドバックループを必要とするようなタスクに応じた行動方策の記述を可能に.
Link https://code-as-policies.github.io/
https://ai.googleblog.com/2022/11/robots-that-write-their-own-
code.html
2
背景: 大規模言語モデルを用いたプランニング +
行動の課題
Perception-actionのフィードバックループを必要とするようなタス
ク(指示文)に応じた行動方策を柔軟に設計できない
• スキルをあらかじめ準備し、タスクプランニングを大規模言語モデルに
任せる(SayCanなど)
- あらかじめ準備したスキルの選択、順序を決めるのみ
- スキルの追加は大量のデータを用いたBC, RLが必要
現状のパイプラインで実行できないタスク
• 知覚と行動が結びついているタスク: “オレンジが見えたらリンゴを置い
て”
• 常識を反映するようなタスク: “より早く動いて”
• 空間の相対関係を考慮するタスク: “リンゴをもう少し左に動かして”
3
大規模言語モデルを用いたプログラム生成に着目
4
プロンプト
指示文
出力
From Code as Policies: Language Model Programs for Embodied Control
関連研究:大規模言語モデルを使用してタスクのサブタスクを記述、場面
に合わせたサブタスクの選択
5
From Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
関連研究:大規模言語モデルへ物体検出結果の組み
込み
6
From Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language
関連研究: 言語モデルを使用したプログラム生成
7
From Evaluating Large Language Models Trained on Code
関連研究との違い
8
From Code as Policies: Language Model Programs for Embodied Control
提案手法
• Prompting Language Model Programs
- Promptの構成要素
• Example Language Model Programs(Low‒level)
- Code-writing LLMの使用による学習データ中のthird-party library
の使用
- 関数名の工夫とHint/Examplesの工夫による自前libraryの使用
- タスク指示文とcodeを結びつけるLanguage reasoning
• Example Language Model Programs(High-level)
- while loop, nested function, hierarchically generation
9
Promptの構成要素
• Hints
- どのAPIが呼び出し可能か、そのAPIがどのように呼び出しうるかの
type hints
import numpy as np
from utils import get̲obj̲names, put̲first̲on̲second
• Examples
- 自然言語の指示文(#コメント)とそれを遂行するプログラムとのペア
- プロンプトに過去の指示とプログラム例を含めていくことで、”undo
the last action“というような指示も行える
10
Low-level
11
From Code as Policies: Language Model Programs for Embodied Control
Third-party library
Low-level
12
From Code as Policies: Language Model Programs for Embodied Control
自前ライブラリ
Language reasoning
High-level: control flow
13
From Code as Policies: Language Model Programs for Embodied Control
High-level: nested function
14
From Code as Policies: Language Model Programs for Embodied Control
High-level: Hierarchical generation
15
From Code as Policies: Language Model Programs for Embodied Control
High-level
16
From Code as Policies: Language Model Programs for Embodied Control
実験
• 階層的なプログラム生成の工夫の有効性の確認
- Code-Generation Benchmarksにおいてプログラム生成そのもの
の質の確認
• マニピュレーションタスクにおいて既存手法との比較
• 提案手法が異なるロボットにおいても容易に適用可能であることの確認
17
RoboCodeGenを新しく提案・評価
空間情報、幾何情報を考慮したプログラム生成問題の追加
生成結果に含まれるプログラムに外部ライブラリの使用許可・推奨
Docstingなし
18
From Code as Policies: Language Model Programs for Embodied Control
Flat vs Hierarchical(未定義の関数使用)
19
From Code as Policies: Language Model Programs for Embodied Control
このpromptにおける階層の工夫が提案手法での独特な工夫
既存手法より高い汎化性能を確認
• 階層的なプログラム生成の工夫の有効性の確認
- Code-Generation Benchmarksにおいてプログラム生成そのもの
の質の確認
U: Unseen, S: Seen, A: Attribute(物体の特徴), I: Instruction(指示文)
20
From Code as Policies: Language Model Programs for Embodied Control
既存手法より高い汎化性能を確認
21
From Code as Policies: Language Model Programs for Embodied Control
既存手法より高い汎化性能を確認
22
From Code as Policies: Language Model Programs for Embodied Control
Mobile Manipulatorへの適用
23
# take the coca cola can from the cart and put it in the middle of the fruits on the table.
From Code as Policies: Language Model Programs for Embodied Control
おまけ
24
From Code as Policies: Language Model Programs for Embodied Control
まとめ
指示文のコメントと小サンプルのプロンプトからロボットの行動方策の
プログラムを生成. あらかじめ準備する行動、認識APIとプロンプト文を
工夫.
Limitation
あらかじめ準備するAPI, プロンプト文に制限される
Exampleにない抽象度の行動は苦手らしい
感想
プロンプトエンジニアの記述力が試される(appendix Aオモロイ)
25

More Related Content

What's hot (20)

PPTX
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
PDF
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
PDF
研究効率化Tips Ver.2
cvpaper. challenge
 
PPTX
Transformerを雰囲気で理解する
AtsukiYamaguchi1
 
PPTX
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
 
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
 
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
 
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
PDF
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Preferred Networks
 
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
 
PDF
[DL輪読会]Temporal Abstraction in NeurIPS2019
Deep Learning JP
 
PDF
変分推論と Normalizing Flow
Akihiro Nitta
 
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
PDF
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 
PPTX
モデル高速化百選
Yusuke Uchida
 
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
PPTX
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
 
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
研究効率化Tips Ver.2
cvpaper. challenge
 
Transformerを雰囲気で理解する
AtsukiYamaguchi1
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Preferred Networks
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
Deep Learning JP
 
変分推論と Normalizing Flow
Akihiro Nitta
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 
モデル高速化百選
Yusuke Uchida
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 

Similar to 【DL輪読会】Code as Policies: Language Model Programs for Embodied Control (13)

PDF
Run-time Code Generation and Modal-ML の紹介@PLDIr#2
Masahiro Sakai
 
PPTX
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
Deep Learning JP
 
PDF
ヒューマノイドロボット頂上決戦と人工知能:実践と理論のギャップを探る
Akihiko Yamaguchi
 
PDF
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Tatsuya Shirakawa
 
PDF
LLMセキュリティの概要  LLM時代のセキュリティリスク~研究最前線と実務への展開~ 【ハイブリッド開催】
tsasakirevol
 
PPTX
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Keisuke Nakata
 
PPTX
Solving Quantitative Reasoning Problems with Language Models
harmonylab
 
PDF
[DL Hacks] code_representation
Deep Learning JP
 
PDF
ロボットによる一般問題解決
SOINN Inc.
 
PDF
ChatGPTの驚くべき対話能力 20230414APR.pdf
YamashitaKatsushi
 
PDF
[DL輪読会]What Matters In On-Policy Reinforcement Learning? A Large-Scale Empiri...
Deep Learning JP
 
PPTX
A Deep Reinforcement Learning Chatbot
Takahiro Yoshinaga
 
PDF
Ibis2016okanohara
Preferred Networks
 
Run-time Code Generation and Modal-ML の紹介@PLDIr#2
Masahiro Sakai
 
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
Deep Learning JP
 
ヒューマノイドロボット頂上決戦と人工知能:実践と理論のギャップを探る
Akihiko Yamaguchi
 
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Tatsuya Shirakawa
 
LLMセキュリティの概要  LLM時代のセキュリティリスク~研究最前線と実務への展開~ 【ハイブリッド開催】
tsasakirevol
 
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Keisuke Nakata
 
Solving Quantitative Reasoning Problems with Language Models
harmonylab
 
[DL Hacks] code_representation
Deep Learning JP
 
ロボットによる一般問題解決
SOINN Inc.
 
ChatGPTの驚くべき対話能力 20230414APR.pdf
YamashitaKatsushi
 
[DL輪読会]What Matters In On-Policy Reinforcement Learning? A Large-Scale Empiri...
Deep Learning JP
 
A Deep Reinforcement Learning Chatbot
Takahiro Yoshinaga
 
Ibis2016okanohara
Preferred Networks
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

Recently uploaded (10)

PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
PDF
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 

【DL輪読会】Code as Policies: Language Model Programs for Embodied Control