The document summarizes recent research related to "theory of mind" in multi-agent reinforcement learning. It discusses three papers that propose methods for agents to infer the intentions of other agents by applying concepts from theory of mind:
1. The papers propose that in multi-agent reinforcement learning, being able to understand the intentions of other agents could help with cooperation and increase success rates.
2. The methods aim to estimate the intentions of other agents by modeling their beliefs and private information, using ideas from theory of mind in cognitive science. This involves inferring information about other agents that is not directly observable.
3. Bayesian inference is often used to reason about the beliefs, goals and private information of other agents based
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
The detailed results are described at GitHub (in English):
https://github.com/jkatsuta/exp-18-1q
(maddpg/experiments/my_notes/のexp1 ~ exp6)
立教大学のセミナー資料(前篇)です。
資料後篇:
https://www.slideshare.net/JunichiroKatsuta/ss-108099542
ブログ(動画あり):
https://recruit.gmo.jp/engineer/jisedai/blog/multi-agent-reinforcement-learning/
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
[DL輪読会]Recent Advances in Autoencoder-Based Representation LearningDeep Learning JP
1. Recent advances in autoencoder-based representation learning include incorporating meta-priors to encourage disentanglement and using rate-distortion and rate-distortion-usefulness tradeoffs to balance compression and reconstruction.
2. Variational autoencoders introduce priors to disentangle latent factors, but recent work aggregates posteriors to directly encourage disentanglement.
3. The rate-distortion framework balances the rate of information transmission against reconstruction distortion, while rate-distortion-usefulness also considers downstream task usefulness.
This document provides an overview of POMDP (Partially Observable Markov Decision Process) and its applications. It first defines the key concepts of POMDP such as states, actions, observations, and belief states. It then uses the classic Tiger problem as an example to illustrate these concepts. The document discusses different approaches to solve POMDP problems, including model-based methods that learn the environment model from data and model-free reinforcement learning methods. Finally, it provides examples of applying POMDP to games like ViZDoom and robot navigation problems.
The detailed results are described at GitHub (in English):
https://github.com/jkatsuta/exp-18-1q
(maddpg/experiments/my_notes/のexp1 ~ exp6)
立教大学のセミナー資料(前篇)です。
資料後篇:
https://www.slideshare.net/JunichiroKatsuta/ss-108099542
ブログ(動画あり):
https://recruit.gmo.jp/engineer/jisedai/blog/multi-agent-reinforcement-learning/
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
[DL輪読会]Recent Advances in Autoencoder-Based Representation LearningDeep Learning JP
1. Recent advances in autoencoder-based representation learning include incorporating meta-priors to encourage disentanglement and using rate-distortion and rate-distortion-usefulness tradeoffs to balance compression and reconstruction.
2. Variational autoencoders introduce priors to disentangle latent factors, but recent work aggregates posteriors to directly encourage disentanglement.
3. The rate-distortion framework balances the rate of information transmission against reconstruction distortion, while rate-distortion-usefulness also considers downstream task usefulness.
This document provides an overview of POMDP (Partially Observable Markov Decision Process) and its applications. It first defines the key concepts of POMDP such as states, actions, observations, and belief states. It then uses the classic Tiger problem as an example to illustrate these concepts. The document discusses different approaches to solve POMDP problems, including model-based methods that learn the environment model from data and model-free reinforcement learning methods. Finally, it provides examples of applying POMDP to games like ViZDoom and robot navigation problems.
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
Can AI predict animal movements? Filling gaps in animal trajectories using inverse reinforcement learning, Ecosphere,
Modeling sensory-motor decisions in natural behavior, PLoS Comp. Biol.
2. 書誌情報
以下の論⽂の内容が中⼼
n The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
- NeurIPS2022
n Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning
- ICLR2022
n Multi-Agent Reinforcement Learning is a Sequence Modeling Problem
- NeurIPS2023
Shota Imai | The University of Tokyo
2
8. 中央集権型学習分散型実⾏
CTDE; Centralized Learning Distributed Execution
n 現在のMARLの最重要概念
n 中央集権型学習:学習時のみ,勾配を計算する時に全体のエージェントの情報を含む環境の「グローバルな情
報」を使う
(e.g, 各エージェントの⽅策パラメータの勾配計算に部分観測に加え真の状態sを使う)
n 分散型実⾏:テスト時には,各エージェントは⾃⾝の部分観測のみを⼊⼒として⽅策を実⾏
(例)
学習時には,全エージェントの情報sやuを使って,⽅策勾配を
のように計算し,テスト時には各エージェントは⽅策𝜋(𝑢!|𝜏!)のみを使い,グローバルな情報の⼊⼒を必要とし
ない
n COMA[Foerster+ 2017]以降,特に⽤いられるアプローチで,
“in many cases, learning can take place in a simulator or a laboratory in which extra state information is
available and agents can communicate freely”[Foerster+ 2016]
つまり,「マルチエージェントの学習は,研究的な環境でシミュレータ等を使えるため,学習を促進するために
追加の状態の情報を使ってもよい」という仮定によるアプローチ
n 本来エージェントが動作するテスト環境(Execution時)は,基本的に各エージェントが個別の観測だけを受け
取って強調しているため,グローバルな情報は使えない
Shota Imai | The University of Tokyo
8
11. 初期のCTDE型⼿法
n COMA(Counterfactual Multi-Agent Policy Gradients)
- CTDEが導⼊された⼿法
- シングルRLの⽅策勾配をCTDEで改良
n MADDPG(Multi-Agent Deterministic Policy Gradients)
- DDPGをCTDEで改良
Shota Imai | The University of Tokyo
11
12. IGM原理に基づく価値分解型の⼿法
n VDN
- 価値分解型⼿法の元祖
- 各エージェントの個別価値の和とCTDEの勾配計算時に⽤いる共同価値を⼀致させる
n QMIX
- 最もよく使われるMARLの代表的アルゴリズム
- HypernetworkベースのMixing networkで共同価値を計算
n QTRAN
- IGM原理が提唱された⼿法
- 共同価値を学習しやすい形に変換
n QPLEX
- シングルRLでも使われたDueling Networkを使⽤
- 個別価値と共同価値の両⽅にDueling Networkの機構を組み込む
Shota Imai | The University of Tokyo
12
13. IGM原理(Individual Global-Max Principle)
n 各エージェント𝑎が個別の観測𝑜!(または観測の履歴𝜏!)を基に出⼒する⾏動価値𝑄!と,
CTDE型の⼿法で勾配を計算する時に⽤いる𝑄"#(𝜏, 𝒖)について以下の関係を満たす場合,
この⼿法における⾏動価値はIGMを満たす
n つまり各エージェント個体がそれぞれ「最適だと思っている」(=⾏動価値が最も⾼い)
⾏動をまとめた共同⾏動が,エージェント全体としても現在の状態(or軌道)の下で最
も⾼い⾏動価値を持つ,という状況を満たす
n IGMを満たさない場合,学習時の共同価値が最⼤の時と個別のエージェントの価値の最
⼤の時がずれるため,分散型実⾏時に各エージェントが個別価値ベースで⾏動を選択す
ると,全体としての最適⾏動にならない
n QTRANで提唱される前のVDNやQMIXも,実はこの性質を持っていた
Shota Imai | The University of Tokyo
13
16. MAPPO(Multi-Agent Proximal Policy Optimization)
n シングルRLでよく使われるPPOを,学習アルゴリズムはそのままにハイパラや実装を
MARL向けに調整した⼿法
n MARLで重要とされてきたIGM原理を満たさず,役割学習などの機構も持たないが,既存
のMARLアルゴリズムを圧倒する性能を発揮
Shota Imai | The University of Tokyo
16
17. おさらい / PPO
n TRPOを改良した⼿法で,より実装を単純にし,強⼒にしたもの
- TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅を保証
n 更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約
をかけて学習
Shota Imai | The University of Tokyo
17
21. 実装上の⼯夫の効果 / グローバル情報と個別情報の使い⽅
n CTDEで使うグローバルな情報についての定義をいくつか設定し,それを学習に使った場
合でどう性能が変化するかを分析
- CL(concatenation of local observations):全てのエージェントの観測をconcatしたものを
グローバル情報とする
- EP(EnvironmentProvided global state ):環境・全エージェントの要約情報をグローバル情
報とする
- AS(Agent-Specific Global State ):各エージェント固有の観測とグローバル情報を組み合
わせる
- FP(Featured-Pruned Agent-Specific Global State):ASで,各エージェントで被っている
う情報を削除したもの
Shota Imai | The University of Tokyo
21
25. HAPPO(Heterogeneous-Agent Proximal Policy Optimization)
n MAPPOはアルゴリズムの性質上,全てのエージェントが同じパラメータを共有する
Homogeneousな設定でしか使⽤できない
- この設定はParameter Sharingと呼ばれるMARLにおける代表的な⼯夫
n ⾏動空間が違うエージェントで構成されるMARLのタスクでもMAPPOのようなやり⽅で
学習するため,HAPPOを提案
n 新たにAdvantage Decompositionという概念と,それをベースにしたsequential policy
updateをPPOに取り⼊れた
n かなり理論的なことも議論している論⽂(今回は割愛)
※実際にはHATRPOの導⼊がメインの論⽂だが,TRPOを簡単にしたHAPPOの⽅が⼀般的
Shota Imai | The University of Tokyo
25
27. Multi-Agent Advantage Decomposition
n 𝑖%:'をエージェントの順列とすると以下が成り⽴つ
n 各エージェントが正のアドバンテージを持つ⾏動aを選択し,続くエージェントも先の
エージェントの⾏動を考慮した上で正のアドバンテージを持つ⾏動を選択・・・と繰り
返すと,全体の共同アドバンテージ𝐴$
(":$
は正の値になることが保証される
n この性質を利⽤して,各エージェントのPPOの更新を以下のように⾏う
Shota Imai | The University of Tokyo
27
30. MAT(Multi-Agent Transformer)
n HAPPOで提案されたAdvantage DecompositionとSequential Policy Updateをベースに,
MARLの⾏動⽣成・学習を系列モデリングとして定式化
- 論⽂タイトル: Multi-Agent Reinforcement Learning is A Sequence Modeling Problem
n 系列モデリングの最強⼿法であるTransformerを取り⼊れることで, MARLの様々なタ
スクで圧倒的な性能を発揮
n さらに,Transformerが得意とする事前学習についても検討を⾏い,MARLでエージェン
ト数が違うタスクへのFew/Zero-shot学習が成功することも証明
Shota Imai | The University of Tokyo
30
35. MAT / 事前学習の実験
n 複数環境で性能が出るようにMATで学習したエージェントが,エージェント数を変える
などした別タスクでも性能を発揮できるかどうか
【実験設定】
n SMAC:3m, 8m vs 9m, 10m vs 11m, 25m, 3s vs 3z, 2s3z, 3s5z, MMMで学習したモデル
をエージェント数が異なる5m vs 6m, 8m, 27m vs 30m, 2s vs 1sc, 1c3s5z, MMM2に適⽤
n MA Mujoco:全ての部位が揃ったHalfCheetahで学習したモデルを,⼀部の部位が動か
なくなったHalfCheetahに適⽤
n 事前学習のサンプル数は10M
Shota Imai | The University of Tokyo
35