本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
2024/2/27 に JASA OpenEL working group で講演した資料
https://note.com/kae_made から公開している概念モデリングに関する技術コンテンツをAzure OpenAI Studio で追加学習し、概念モデリング支援チャットを作成を試す方法を解説
デモ動画は、https://youtu.be/UGCuMwM8cEE?si=wT9YH8Hx8Zmjuolf で視聴可
AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Confere...小川 雄太郎
2020年5月に実施した「第2回G検定合格者がおススメするAI・DL本アンケート」のフリーコメント欄、「ディープラーニング協会へのご意見・ご要望」に寄せられた意見を、ディープラーニング協会らしく、機械学習とディープラーニングを駆使して分析した結果を紹介します。本発表ではワードクラウド、説明性XAI、クラスタリング、要約、ALBERTなどの自然言語処理技術の概要を解説し、そして実際にこれらの技術を、G合格者のみなさまの「ディープラーニング協会へのご意見・ご要望」データに適用すると、どのような分析結果が出たのか紹介します。(共同発表)
2020年08月01日
Deep Learning Digital Conference
https://dllab.connpass.com/event/178714/
Lightning talks: stanford japanese cheetsheetsKamuela Lau
Lightning introduction to deep learning, convolutional neural networks, and recurrent neural networks using the translated Stanford CS-230 cheatsheets.
The original original presentation was conducted in English, using the Japanese cheatsheets.
6. ChatGPT / みんなの反応
n 世界中のテクノロジー界隈の著名⼈が絶賛
n テクノロジーの歴史における稀に⾒る⾰命という認識も
Shota Imai | The University of Tokyo
6
7. ChatGPTでできること
⾔語を使う,⾔語で完結するものであればほとんどなんでもできる
n 質問回答
- ⼤体の質問には回答してくれ,それなりに事実に基づき,提⽰される情報も豊富
- ただし,確定した事実や数字・論理に関わることは苦⼿
n ⽂章校正
- ⽇本語の⽂に対して「以下の⽂章を丁寧にしてください」といった使い⽅や,英⽂校正みたいに正
しい英語に書き直してくれる
n ⽂章要約
- かなりの⻑⽂でも要点を抑えて要約できる
- 論⽂や書籍も記憶しているようで,タイトルを投げたらそのまま要約も返してくれる
n プログラミングコードの⽣成
- そのままコピペして実⾏可能なコードを⽣成してくれる
- コピペだけで Webサービスや,ゲームを作れるレベルのコードの⽣成が可能
- エラーが出た場合は,それを⼊⼒すると,エラーを回避するようなプログラムを提案してくれる
n 提案
- 「〜を書いてみてください」,「~提案してください」とすることで,まだ存在しない未知の物事
や計画などを書いてくれる
その他⾊々
Shota Imai | The University of Tokyo
7
9. ChatGPTの技術 / 概要
n 基本的には,GPT-3に対して強化学習(RLHF; Reinforcement Learning from Human
Feedback)を⾏なったInstructGPTをベースにしていると考えられる
n InstructGPTで学習されたモデルは「GPT-3.5」シリーズと呼ばれ,2022年初頭に学習さ
れたこのシリーズのモデルに微調整を加えたのがChatGPT
n InstructGPTの論⽂が公開されてから相当な⽇数が経過していることを考えると,実際に
はInstructGPTをベースに相当な試⾏錯誤があったと考えられ,論⽂に書いてある実装・
⼿法とは異なる点も多そう
n 学習のインフラにはAzureを使⽤
※GPT-3公開後にMicrosoftは独占ライセンスを取得するなどして提携している
n ChatGPTはGPTの出⼒に,ModerationAPIによるフィルタをかけたものを最終的な出⼒
にしている
Shota Imai | The University of Tokyo
9
10. ChatGPTのコア技術 / InstructGPT
n ChatGPTのコアとなっている技術と考えられ,GPT-3に対して⼈間のフィードバックに
もとづく強化学習(RLHF; Reinforcement Learning from Human Feedback)を⾏
なったモデル
- Training language models to follow instructions with human feedback
- https://arxiv.org/abs/2203.02155
n 本資料で詳しく解説
Shota Imai | The University of Tokyo
10
11. ChatGPTの技術 / ModerationAPI
n GPTの出⼒に有害なコンテンツが含まれているかを評価し,アプリケーションにおける
有害な動作を防ぐ
n OpenAI APIのユーザも使⽤可能
n テクニカルペーパーも公開されている
- A Holistic Approach to Undesired Content Detection in the Real World
- https://arxiv.org/abs/2208.03274
Shota Imai | The University of Tokyo
11
12. 補⾜ / OpenAIのGPTシリーズのモデルと利⽤形態あれこれ
n OpenAIはいくつかのGPTの学習されたモデル,APIを運⽤している
- これらのモデルはパラメータ数や学習⽅法の点で同じGPT-〇でも差分がある
- 例えば単に「GPT-3」と⾔った場合,それが指す学習済みモデルは複数存在する
(GPT-3 6.7B, GPT-3 2.7B, GPT-3 175Bなど)
- それらのモデルに対して,異なるAPIが割り当てられている
n 現在の最新モデルは,GPT-3 (or Codex)ベースのモデルに対して強化学習を⾏なった
InstructGPTのモデルで,text-davinci-002, text-davinci-003等のモデルとAPIが公開さ
れている
n 特に以下のモデルはGPT-3.5シリーズと呼ばれ,ChatGPTもこのモデルを元にしている
- code-davinci-002
- text-davinci-002
- text-davinci-003
Shota Imai | The University of Tokyo
12
15. GPTとは?
n GPTは「Generative Pre-trained Transformer」の略で,OpenAIが開発している
Transformerベースの⼤規模な事前学習済み⾔語モデルを指す
n 初代GPTからGPT-2,CPT-3までの研究論⽂が公開されており,WebGPTなどの亜種も
存在
n 実際にユーザーがGPTに対して⽣成を指⽰できるOpenAI APIや指⽰⽂に応じて
プログラミングコードを⽣成するCodeX Copilotなどのサービス提供もある
n モデルのサイズが⾮常に⼤きい(GPT-3で1750億)ことと,GPT以前の⾔語⽣成AIと⽐
べて圧倒的に性能が⾼いことが特徴で,シリーズが公開される度に話題に
Shota Imai | The University of Tokyo
15
16. Transformer
Attention Is All You Need
n 現在のAI・機械学習において最も利⽤されている・注⽬されている・性能を発揮してい
る深層学習のアーキテクチャであり,self-attentionがコア技術
n もともとは,機械翻訳を⾏う⼿法として提案されたが,現在では翻訳にとどまらず,画
像認識,強化学習などなど深層学習を使うほとんどのタスクで圧倒的な性能を発揮
n あまりにも有名なモデルゆえに⼤量の解説記事・書籍が存在するため,詳細はそちらを
参照
Shota Imai | The University of Tokyo
16
17. ⾔語モデル(Language Model)
n 単語や⽂章が⽣成される確率をモデル化したもの
n 例えば,以下のような⽂の⽳埋め問題で,「このりんごはとても」までを⼊⼒して,次
の( )にはいる単語の確率を出⼒し,最も⾼い確率の単語を割り当てる
⽂:このりんごはとても( )
(1) おいしい 0.8
(2) 寂しい 0.1
(3) です 0.05
(4) ペン 0.05
→「おいしい」を出⼒
n 近年はTransformerをベースにした⾔語モデルがほとんどで,特に⼤規模なTransformerを
使⽤したものを⼤規模⾔語モデル(LLM; Large Language Models),⼤量の⾔語データ
で学習したものを事前学習モデル(⼤規模事前学習⾔語モデル)と呼ぶ
Shota Imai | The University of Tokyo
17
18. プロンプト(Prompt)
n ⾔語モデルの出⼒を得る(促す, Prompt)ために,⾔語モデルに⼊⼒する⽂字列,
指⽰⽂を指す
n ⾔語モデルの知識から所望の出⼒(プログラムコード,提案,翻訳⽂,質問回答)を
得るには,適切なプロンプトを⼊⼒する必要がある
n ⾔語モデルのほか画像の⽣成モデルを含む,いわゆる「⽣成AI」の普及に伴い,最近は
「呪⽂(Spell)」などと呼ばれることも
n プロンプトを⼯夫してAIに所望の出⼒をさせる技法の試みはプロンプトエンジニアリン
グとも
Shota Imai | The University of Tokyo
18
プロンプト
プロンプトに対する
⾔語モデルの出⼒
19. GPT
Improving Language Understanding by Generative Pre-Training
n Transformerのデコーダをベースにラベルなしの事前学習を⾏い,タスクに応じた少数の
ラベル付きファインチューニングを⾏なって,さまざまなタスクで性能を評価した
n GPTは少数のラベル付きデータのファインチューニングのみで,常識推論,質問応答
などのタスクで,各タスクに特化したモデルを超える性能を達成
n パラメータ数は170m(1億1700万)
Shota Imai | The University of Tokyo
19
20. GPT-2
Language Models are Unsupervised Multitask Learners
n GPTのモデルはほとんど変更せず,パラメータ数が⼤きいモデルに⼤規模な事前学習
のみを⾏なって,特定タスクにおけるラベル付きの学習は⾏わなずzero-shot, の設定で
性能が出るようにしたモデル
- zero-shot:例を⼀歳与えずに新しいタスクを解かせる
n パラメータ数は15億
Shota Imai | The University of Tokyo
20
zero-shotの例
21. GPT-3
Language Models are Few-Shot Learners
n GPT-2のアーキテクチャはほぼそのままに,モデルのパラメータ数を175B(1750億)に
した超⼤規模⾔語モデル
n GPTシリーズが本格的に「ヤバい」と思われたのはGPT-3からで,⼤規模モデルの性能
に関する本格的な議論が始まった元祖
n パラメータ数を極限まで増やしたことで,突如できるようになるタスクが存在する,
振る舞いが明らかに変わるなどの現象が確認された
21
22. CodeX, Copilot
Evaluating Large Language Models Trained on Code
n GPTのような⾔語モデルをプログラミングコードの⽣成に⽤いたモデル
n GitHubから獲得したコードのデータセットでGPTのモデルをファインチューニングした
パラメータ数120億のモデルを使⽤
n 最終的には77.5%の割合で評価のテストに通るモデルに
Shota Imai | The University of Tokyo
22
23. 基盤モデル(Foundation Model)
n GPTシリーズなども含め,⼤規模な深層学習のモデルを膨⼤なデータで学習し,様々な
応⽤の基盤(Foundation)にできるモデルの総称で,スタンフォード⼤学の研究者らの
論⽂“On the Opportunities and Risks of Foundation Models”で提唱された概念
n 現在までに,⾔語,画像,⾳声,⾏動,プログラムなど様々なモーダルを扱える基盤モ
デルが登場し,AIの研究で特に注⽬され,産業応⽤が期待・すでに実⽤化
n 億を超える⼤量パラメータのモデルであることを特徴とし,学習には膨⼤なデータと
計算資源が要求される
Shota Imai | The University of Tokyo
23
DALL・E,Imagen,
StableDiffusion, Magic3D等
(⾔語→画像,⾔語→3Dモデル)
CodeX
(⾔語→コード)
GPTシリーズ,PaLM,FLAN等
(⾔語→⾔語)
whisper
(⾳声→⾔語) Gato
(⾔語,画像,⾏動→⾔語,画像,⾏動)
25. ChatGPTに関連する⼿法・論⽂
n 基本的には,GPT-3をさらに⼈間の嗜好に合うように強化学習した
InstructGPTをベースにしていると考えられる
n 関連論⽂
- Learning to summarize from human feedback
• ⼈間のフィードバックから報酬を⽣成するReward modelを学習し,⾔語モデル
の強化学習に使う発想
- Training language models to follow instructions with human feedback
• Reward modelによる⾔語モデルの強化学習を,GPT-3に対して本格的に実⾏し
たInstructGPTに関する論⽂
Shota Imai | The University of Tokyo
25
27. InstructGPTの特徴
n GPT-3などと⽐べて,より⼈間視点で好ましい出⼒を⾏う
n GPT-3などと⽐べて,より事実に基づく出⼒を⾏う
n GPT-3などと⽐べて,有害な出⼒が減少した
n アライメントの結果,有名な⾔語処理タスクの⼀部に対して性能が低下した(alignment
tax; アライメントの税)ものの,その影響は最⼩限
n RLHFで出現しないような指⽰⽂に対しても⾼い汎化性能
n 確定した事実に関する間違い(e.g. 都道府県の⾯積,⼈名など),簡単な質問に対する
無駄に⻑い回答,誤った前提の質問(e.g. 靴下の⾎液は何⾊ですか?)をそうだと検知
できないなど,まだ⽋点がある
Shota Imai | The University of Tokyo
27
28. InstructGPTの性能
n GPT :1750億パラメータを持つ通常のGPT-3
n GPT-prompted:GPT-3に有益なプロンプトを与えたモデル
n PPO-ptx:InstructGPT
横軸:モデルのパラメータ数
縦軸:出⼒を175Bのモデルの出⼒と⽐較して,
⼈間が「こちらの⽅が良い」と評価した⽐率
パラメータが⾮常に⼩さい1.3Bの時点で,
175Bのモデルよりも強化学習を⾏なったPPO-ptxの⽅が⾼い性能を出している
Shota Imai | The University of Tokyo
28
29. InstructGPTの学習概要
n Step1
- プロンプトのデータを学習するモデルに出⼒させ,そ
のプロンプトに対する⼈間のlabelerの回答を元に教師
あり学習
n Step2
- あるプロンプトに対する出⼒を複数集め,その出⼒に
関する「好ましさ」を,⼈間のlabelerがランク付けす
る
- その後の,そのランク付きデータをもとに,後の強化
学習における報酬を⽣成するReward model(RM)を
学習
n Step3
- あるプロンプトに対するGPTモデルの出⼒に対して,
Reward Modelが報酬を⽣成し,PPOによる強化学習
を⾏う
n Step3の完了後,強化学習した新しいGPTモデルを
使ってStep2~3を⾏う〜という⼿順を繰り返す
n この⼿順で学習するベースのモデルは,今まで運⽤
していたGPT-3の学習済みモデル
Shota Imai | The University of Tokyo
29
30. Supervised Fine-Tuning (SFT)
n プロンプトデータの⼊⼒に対する出⼒を,labelerによる回答をもとに教師あり学習
n 学習は16エポック
n 学習率はcosine learning rate decayで調整
n residual dropout of 0.2
n 最終的なモデルの選定は後述のRMをベースに選ぶ
n エポックの初期は過学習していたが,エポックの進⾏とともにRM scoreや⼈間の嗜好に
あった出⼒をするように
Shota Imai | The University of Tokyo
30
31. Reward Model(RM)
n Labelerがプロンプトの出⼒に対してランク付を⾏い,そのランク付きデータから学習
n 学習に使⽤するモデルは,GPT-3のSFTで学習を⾏なったモデルのうち,パラメータ数
6B(60億)のモデルの最終層のレイヤを除いて,報酬のスカラー値を⼀つ出⼒するよう
にしたもの
- 175BのRMは不安定で機能しなかったとのこと
- この6BのRMを,全てのInstructGPTの学習に使⽤
n labelerは,あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て,それを
K=4からK=9の間でランク付する
n RMはプロンプト𝑥に対する出⼒yを⼊⼒として,報酬を出⼒するモデル𝑟!(𝑥, 𝑦)と書ける
n RMは,出⼒の⽐較を利⽤して以下の損失関数で学習される
- 𝑦!はより好ましいランクの出⼒,𝑦"は 𝑦!と⽐較してランクが低い出⼒
- ある1つのプロンプト𝑥に対し,ランク付けされた出⼒K個が存在するため,組み合わせの数は #𝐶$個存在
する(ランク数が4個なら %𝐶$ =6個)
- σはシグモイド間数
- この損失の最⼩化により, 𝑟&(𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出す
ようになる
Shota Imai | The University of Tokyo
31
32. 強化学習
n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う
n 強化学習のアルゴリズムとしてはPPO(Proximal Policy Optimization)を使⽤
n ここでの環境は,⼀つのプロンプトを⼀つの状態とみなすバンディット型の環境とみな
せる
n プロンプトxに対するモデルの出⼒𝜋"#$(y | x)に対して,⼊⼒xと出⼒yに対するRMに
よる報酬の出⼒𝑟! (𝑥, 𝑦)を使う
- ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため,報酬を最⼤
化する強化学習によって学習されたモデルは,良い報酬を得る=⼈間に取って好ましい出⼒を
するように改善される
n 強化学習の⽬的関数を以下にしたものが,PPT-ptxとして⾔及されているInstructGPTの
モデル
- 𝜋!"#はSFTを⾏なった直後のモデルの出⼒, 𝜋$%が最適化を⾏うGPTモデルのRL⽅策
- ⼀般的なNLPデータセットへの性能低下を防ぐため,それらのデータへの勾配も加えている
Shota Imai | The University of Tokyo
32
33. 補⾜ / PPO
n 強化学習における⽅策勾配法の⼀つTRPOを,より実装を単純にし,強⼒にしたもの
- TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅を保証
n 更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約
をかけて学習
n 強化学習,⽅策勾配法などの話は⻑くなりすぎるので,資料末の「参考資料」の中から
⾃分に適したものを参考にしていただければ
Shota Imai | The University of Tokyo
33
34. プロンプトのデータセット 1/2
n OpenAI AIの利⽤者が実際に使ったプロンプトから構成される
※OpenAI APIの利⽤には「利⽤者のデータが学習に使われること」に賛同する必要がある
n 加えて,InstructGPTの学習の評価に参加する⼈(labeler)にもいくつかのプロンプトを
書いてもらう
n Plain:任意のテキスト
n Few-shot:ある指⽰とそれに対する複数のクエリ,回答
n User-based:OpenAI APIの利⽤に記載されている利⽤例に沿った内容
Shota Imai | The University of Tokyo
34
35. プロンプトのデータセット 2/2
n 3種類のプロンプトに分ける
- SFTデータセット:プロンプトをモデルに与えて,その出⼒に対してLabelerが正しい回答を
教師データとして与える時に使う(1万3000データ, labelerデータ含む)
- RMデータセット:Reward Modelの学習の際に,同じプロンプトを複数回モデルに与え,複
数回答をlabelerがランク付けする時に使う(3万3000データ, labelerデータ含む)
- PPOデータセット:PPOを使った強化学習の際の⼊⼒(状態)として使う(3万1000データ,
APIの利⽤者データのみ)
n プロンプトデータの96%は英語
Shota Imai | The University of Tokyo
35
38. InstructGPTの評価
n InstructGPTが「アライメント」により,⼈間にとって好ましい⾔語出⼒をできているか
評価
n ベースライン
- GPT-3:オリジナルのGPT-3のモデル
- SFT:SGPT-3にFTのみを⾏い,強化学習をしていないモデル
- PPO:PPOで強化学習するが,⼀般的なデータセットへの勾配を考慮していないモデル
- PPO-ptx:⼀般的なデータセットへの勾配も考慮して強化学習したモデル.InstructGPT
n 評価の種類
1. Evaluations on API distribution
• 学習に使⽤しなかった,OpenAPIの利⽤者のプロンプトを⼊⼒にして,その出⼒を評価
• 175BのSFTモデルをベースモデルにし,⼈間から⾒た出⼒の好ましさがこのベースモデルを上回る割
合=Win rateを評価指標にする
• 暴⼒的な内容,有害な指摘,偏った意⾒の表明,倫理に対する判定などのメタデータをもとにする
評価も
2. Evaluations on public NLP datasets
• InstructGPT以外の⼀般的な⾔語タスクで⽤いられるNLPのデータセットを使う評価
Shota Imai | The University of Tokyo
38
40. 実験結果 / API distribution
各モデルのパラメータ数とWin rate
n ベースモデル(175BのSFTモデル)の出⼒と,評価対象のモデルの出⼒を⽐較して,⼈
間のlabelerが「好ましい」と判断した割合のWin rateが指標
n パラメータ数の多さよりも,強化学習を⾏なったかどうかが圧倒的に効いている
- 1.3BのPPOモデルが,その100倍以上のパラメータを持つ175BのGPTモデルに勝る
Heldout workers:学習に関わらなかったlabeler
Training workers:学習に関わったlabeler
Shota Imai | The University of Tokyo
40
41. 実験結果 / API distribution
メタデータをもとにした評価
n 強化学習を⾏なったモデルの⽅が,よりプロンプトの指⽰を忠実に守り,適切な出⼒を
している
n GPTモデルは,勝⼿に新しい情報をでっちあげて出⼒に混ぜる傾向がある
※Hallucinations:要約のような閉じたタスクで,勝⼿に新しい情報を作り上げること
Shota Imai | The University of Tokyo
41
42. 実験結果 /public NLP datasets
TruthfulQA dataset
n TruthfulQA dataset:38のカテゴリにまたがる817の質問から構成され,確定した事実が
存在するが,誤った信念や誤解によって誤答するようなデータセット
n PPOのモデルは多少の改善を⾒せている
Shota Imai | The University of Tokyo
42
データセットの例と,
GPT-3の間違えた解答例
43. 実験結果 /public NLP datasets
RealToxicityPrompts
n RealToxicityPrompts:英語のwebのコーパスから集められた,とくに有害性のない⽂章
の⼀部分と,有害性を判定するスコアのペアからなるデータセット.この有害性のない
⽂章に続いて,有害な⽂を⽣成してしまうかどうかをみる
n Respectfulな指⽰をプロンプトとして与えた場合と
そうでない場合も⽐較
n 出⼒⽂の有害性の判定は,⼈間によるものと,
PerspectiveAPIに投げた場合のスコアを使⽤
Shota Imai | The University of Tokyo
43
データセットに含まれる⽂の例.
この⽂⾃体は全く無害
44. 定性評価 1/2
n 強化学習中にほぼ登場しない⾔語に対して
も⾼い性能を⽰す
- 学習データの90%以上が英語であるにも関
わらず,それ以外の⾔語(プログラミング
⾔語含む)に関するタスクも明らかに質が
向上している
- GPT-3は,英語以外の指⽰⽂の内容を無視
する傾向がある
Shota Imai | The University of Tokyo
44
45. 定性評価 1/2 出⼒例
「フランス語で、古代ギリシャにタイムスリップしたカエルの短編⼩説を書く。」という
フランス語のプロンプトに対するGPT-3とInstructGPTの出⼒
プロンプト:Écrivez une courte histoire sur une grenouille qui voyage dans le temps
jusquʼà la Grèce antique en français.
n GPT-3の出⼒(⽇本語訳)
“神々の遊びのすべてを知りたいと願う⼦供が、神々の物語の中に⾃分⾃⾝を⾒出すという物語を書
いてください。遠い時代に不倫していた⻘年が、その時代の少⼥と不倫する話を書いてください。学
校に通うことになった⼦供が、想像上の友達を持ち、その友達のおかげで過去に戻ることができると
いう話を書いてください”
n InstructGPTの出⼒(⽇本語訳)
“カエルは道に迷い、疲れ果ててしまった。彼の⽬的はただ⼀つ、過去にさかのぼって古代ギリシャ
にたどり着くことだった。最初の問題は、移動⼿段を⾒つけることだった。タイムマシンに⾶び乗る
のも⼀つの⼿だと聞いていた。⾶び込んでみると、そこは過去、⽢く妖しい匂いのする星降る夜だっ
た。そしてカエルは、坂道の多い古都の街路や⼩さな宿屋を、素早く冒険的な⾜取りで移動する。
[...]”
n GPT-3 は明らかに関係がなく,しかも有害な内容の出⼒をしているが,InstructCPTの⽅はお題に
沿った内容
Shota Imai | The University of Tokyo
45
46. 定性評価 2/2
n いまだに簡単なミスはしてしまう
- 誤った前提に基づく指⽰を与えると,その
誤った内容をそのまま受け⼊れて出⼒して
しまう
- 簡単な質問に対して,無駄に⻑い回答を出
⼒してしまう.答えが明らかな場合でも,
⻑々と考慮する必要がない可能性も答えて
しまう
- 複数の制約条件があると,性能が低下する
(例:1930年にフランスで作られた映画
を10個挙げよ)
Shota Imai | The University of Tokyo
46
47. 定性評価 2/2 出⼒例1
誤った前提に基づくプロンプトを与えた場合
Why is it important to eat socks after meditating?(なぜ瞑想後に靴下を⾷べることが重要なのですか?)
※当然,瞑想後に靴下を⾷べるという常識は存在しない
n GPT-3の出⼒
“靴下から何を学ぶことができますか?
A: 靴下を⾷べるということは、悟りのエッセンスを味わうということです。
悟りのエッセンスを味わっているのです。あなたは、覚醒した⼼の本当の味を
覚醒したマインドの本当の味を味わっているのです。
Q: ⽬覚めた⼼の本当の味とは何でしょう?
本当の味とは何ですか?
A:覚醒した⼼の本当の味は
味のない味です。そして、無味の本当の味は
無味の味とは、⾜の臭いの味である。”
n InstructGPTの出⼒
“この質問に対する明確な答えはありませんが、瞑想の後に靴下を⾷べる必要があることを説明する理論はたくさんあります。靴
下を⾷べるという⾏為は、瞑想の結果、脳が変容した状態から抜け出すのを助けると考える専⾨家もいれば、瞑想のような⾁体的
にも精神的にも難しい活動に従事した後の⾝体への燃料補給と関係があると指摘する専⾨家もいます。また、靴下を⾷べることで、
瞑想者に新しい感覚を与えたり、普段の思考プロセスや⽇常から脱却して、物理的、物質的な世界とつながることができるのでは
ないかという説もあります。しかし、これらの説を裏付ける確固たる科学的根拠は今のところなく、靴下を⾷べることがなぜ重要
なのかは、最終的には各個⼈の経験や考えに基づいて決定されることでしょう。”
Shota Imai | The University of Tokyo
47
48. 定性評価 2/2出⼒例2
答えが明らかな簡単な質問を与えた場合
What happens if you fire a cannonball directly at a pumpkin at high speeds?
(カボチャに直接砲弾を⾼速で発射したらどうなるのか?)
n GPT-3の出⼒
“かぼちゃが砲弾を引き寄せ、砲弾はかぼちゃに跳ね返されます。かぼちゃは、⾦属を操ることができるほど、強
い磁⽯です。”
n InstructGPTの出⼒
“かぼちゃに直接、⾼速で砲弾を当てるとどうなるかは、予測できない要素が多すぎて正確な予測はできません。
砲弾の⼤きさ、重さ、密度、かぼちゃの材質、砲弾の速度と衝撃⼒、砲弾とかぼちゃがぶつかる瞬間の距離など
が考えられます。その結果、かぼちゃが割れる、地⾯に叩きつけられる、かぼちゃにひびが⼊る、完全に消滅す
る、などの可能性があります。”
Shota Imai | The University of Tokyo
48
49. InstructGPTの研究から得られた⽰唆
1. 強化学習によりモデルのアライメントを⾼めるためのコストは、事前学習と⽐較して
お⼿軽
- 計算コストは,175BのSFTモデルが4.9 petaflops/s-days,175BのPPO-ptxモデルが60
petaflops/s-days,であり,GPT-3の3,640 petaflops/s-daysと⽐べると圧倒的に少ない
- OpenAI APIを使うようなユーザーに対して良い出⼒をするモデルを学習するなら,強化学習
によるRLHFの⽅が,パラメータ数を増やすよりも圧倒的に効率が良い
2. InstructGPTは,英語でない指⽰⽂に対しても汎化する
- なぜここまで汎化するのかはもっと研究が必要だが,好ましい現象
3. InstructGPTに⽤いられた⼿法で,アライメントによる性能低下を防ぐことができる
- アライメントを追求すると,⼀部のタスクの性能が落ちる(alignment tax)が⾔われてきた
が,InstructGPTで導⼊された強化学習の⼿法はlow-tax alignmentな⼿法といえる
4. アライメント⼿法を実世界での利⽤データに基づいて検証するのがよい
- 実は今までアライメントの⼿法は抽象的な理論的な内容に偏っていた
- OpenAIのInstructGPTはユーザーの利⽤データから⾏われた研究
Shota Imai | The University of Tokyo
49
51. 参考資料 1/2
n ChatGPTの技術
- ChatGPT: Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/
- Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini
Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda
Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions
with human feedback. Preprint, 2022.(InstructGPT)
- Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020).
Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
n ⼤規模⾔語モデル・基盤モデル
- Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A.,
Brunskill, E., & et al. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell,
A., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
- Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G.,
et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
Shota Imai | The University of Tokyo
51
52. 参考資料 2/2
n ⾃然⾔語処理,Transformer
- IT Text ⾃然⾔語処理の基礎.岡﨑 直観, 荒瀬 由紀, 鈴⽊ 潤, 鶴岡 慶雅, 宮尾 祐介.オーム社.
2022.
• ⾃然⾔語処理やTransformer,Attention,⾔語モデルについてもっと詳しく知りたい⼈向け
- 深層学習(第2版,機械学習プロフェッショナルシリーズ).岡⾕貴之.講談社.2022
• AttentionやTransformerの他,深層学習の技術全体を知りたい⼈向け
- 第6回 統計・機械学習若⼿シンポジウム チュートリアル講演 Vision and Languageと
Transformers.品川政太朗. https://speakerdeck.com/sei88888/2022-dot-2-11-di-6hui-tong-ji-
ji-jie-xue-xi-ruo-shou-sinpoziumu-tiyutoriarujiang-yan-vision-and-languagetotransformers
• Transformerに関連する最近の技術動向.強化学習×⾔語⽣成モデルの解説も詳しい
n 強化学習
- 強化学習の基礎と深層強化学習.今井翔太.https://t.co/cWVyBvvi0u
• 東⼤の強化学習講義で今井が使った資料.強化学習と,特に深層強化学習を知りたい⼈向け
- 強化学習(第2版).R. Sutton, A. Barto. オーム社.2022
• 強化学習の世界で最も有名で内容が充実した教科書.先⽉,我々が翻訳した⽇本語訳版が出版されました.
- 強化学習(機械学習プロフェッショナルシリーズ).森村哲郎.講談社.2019.
• 強化学習の和書の中では最も理論に詳しい教科書.⽅策勾配法関連の理論はこれで
Shota Imai | The University of Tokyo
52