SlideShare a Scribd company logo
From Transformer to Foundation Models
Transformerから基盤モデルまでの流れ
cvpaper.challenge
1
http://xpaperchallenge.org/cv
基盤モデル | Foundation models
2
Foundation models @On the Opportunities and Risks of Foundation Models
̶ any model that is trained on broad data at scale and can be
adapted (e.g., fine-tuned) to a wide range of downstream tasks...
広範なデータにより学習され(追加学習等により)広い範囲の下流タスクに適用可能なモデル
基盤モデル
Photo from Stanford HAI
Foundation modelsが⽬指す先とは?
3
AGI: Artificial General Intelligence*(汎⽤⼈⼯知能)
̶ 汎⽤的にタスクを解く⼈⼯知能に対する挑戦
Robotics
Vision
Language
Audio
Foundation
Model
Philosophy
Interaction
・・・まだまだ広がりを見せようとしている
*: AGIは人工知能の究極の目標のひとつと言われます
が,Foundation Modelsの目的は種々あります
2022年現在,基盤モデルの衝撃
4
CVとしては“Florence”と“DALL•E2”が主⼒︕
https://openai.com/dall-e-2/
https://arxiv.org/pdf/2111.11432.pdf
画像・動画・⾔語と広範なタスクを同時処理
● 画像/動画と⾔語を別々に学習して統合
● 9億もの画像・⾔語ペアにより学習して基盤モデル構築
● 実に44タスク(データセット)を⾼度に認識、うち多くの
タスクにて最⾼⽔準の精度まで到達
⾔語から⾼精細な画像を⽣成
● CLIP: 画像・⾔語空間の対応関係を⾼度に学習
● Diffusion Models: ノイズ復元により⾼解像な画像描画
● WEB上から収集した数億の画像・⾔語ペアにより学習して
Text-to-Imageのモデルを構築
● この結果,AIは創造性を持ったと総評されるに⾄る
次ページよりTransformer〜Foudation Models(FMs)に⾄るまでを解説↓
From Transformer to FMs(1/N)
5
⾃然⾔語処理 (NLP)分野でTransformerが提案
● Transformer
● Self-attention (⾃⼰注視)機構により系
列データを⼀括処理
● “Attention Is All You Need”とタイトル
を名付けるくらいには衝撃的だった
● 学習時間短縮・性能向上を同時に実現
【Why Transformer?】
Transformerの提案論⽂ “Attention Is All You
Need”(NIPS 2017)にて,機械翻訳タスク(Neural
Machine Translation; NMT)を⾼度に解いたモデル
だからだと思っているのですが諸説あり︖
Transformerについてはこちらも参照
https://www.slideshare.net/cvpaperchallenge/transformer-247407256
From Transformer to FMs(1/N)
6
NLP分野にてTransformerが拡がる
● BERT(Bi-directional Encoder Representations from Transformers)
● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル
● ⽂章の「意味を理解」することができるようになったと話題
● なぜBERTが躍進したか︖
● ⾃⼰教師学習によりラベルなし⽂章を学習に適⽤可能
● 双⽅向モデルにつき,単語の前後から⽂脈を把握
https://arxiv.org/abs/1810.04805
BERTでは多くのタスクを単⼀モデルで解くことが
できるが,その学習は「⽂章のマスクと復元」の
⾃⼰教師あり学習により実施される
Attention is All You Need.(元データ)
↓ 意図的に⽋損作成
Attention is All ___ Need.(復元前)
↓ BERTにより推定
Attention is All You Need.(復元後)
GPT-3論⽂はNeurIPS 2020にて
Best Paper Awardを獲得
From Transformer to FMs(1/N)
7
⼈間レベルの⽂章⽣成を可能にした
● GPT(Generative Pre-trained Transformer)
● 与えられた⽂章の先を予測して⽂章⽣成
● 拡張される度にパラメータ数 / 学習テキストサイズが⼀気に増加
○ GPT-1: 1.2億パラメータ
○ GPT-2: 15億パラメータ, 40GBテキスト
○ GPT-3: 1750億パラメータ, 570GBテキスト
○ 想像を絶するパラメータ数の増加により⼤幅な性能改善が⾒られた
● 「シンギュラリティが来た」と⾔われるくらいの⽂章⽣成能⼒を獲得
https://arxiv.org/pdf/2005.14165.pdf
https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537
Transformerは尚もNLP分野にて進展,Audio/Robotics分野にも展開
From Transformer to FMs(1/N)
8
その後もTransformerの勢いは⽌まらない
Attentionこそ全て︕ ⽂章の先を予測︕
(その後⼤規模化により
GPT-2/3に改良)
⽂章の⽂脈を双⽅向
から理解︕マスク・
復元により⾃⼰教師
学習 画像と⾔語を処理
畳み込みとの融合により
画像認識(検出)を実現
純粋にTransformer構造で画像認識
その後,⼊⼒の⼯夫で動画認識
Natural Language Processing Natural Language Processing Vision & Language Computer Vision
From Transformer to FMs(1/N)
9
Vision Transformer(ViT)
● 純Transformer構造により画像認識
● 画像パッチを単語と⾒なして処理
● Encoderのみ使⽤ / MLPを通して出⼒
● ViTの後にも亜種が登場
● CNN + Transformer: CvT, ConViT(擬似畳込み),
CMT, CoAtNet
● MLP: MLP-Mixer, gMLP
● ViT: DeiT, Swin Transformer ViT [Dosovitskiy+, ICLR21]
【Vision Transformer】
【Swin Transformer V1/V2】
Swin Transformer V1 [Liu+, ICCV21]
Swin Transformer V2 [Liu+, CVPR22]
From Transformer to FMs(1/N)
10
ViTでも自己教師あり学習できることを実証
● ViTでは教師あり学習 @ ImageNet-1k/22k, JFT-300MGoogleが誇る3億のラベル付画像データ
● 最初はContrastive Learning (対照学習)が提案・使⽤
● SimCLR / MoCo / DINOいずれもViTを学習可能
SimCLR [Chen+, ICML20] DINO [Caron+, ICCV21]
⾃⼰教師あり学習ではContrastive Learningが主流の1つ(だった)
Transformerへ適⽤する研究も多数
MoCo [He+, CVPR20]
From Transformer to FMs(1/N)
11
ViTにおける自己教師あり学習の真打ち!?
● “ViTでBERTする” Masked AutoEncoder (MAE)
● 画像・⾔語・⾳声の⾃⼰教師あり学習 Data2vec
MAE [He+, CVPR22]
Data2vec [Baevski+, arXiv22]
どちらも「マスクして復元」という⽅法論
● MAEは画像における⾃⼰教師あり学習
● Data2vecは3つのモダリティ(但しFTは個別)
● 今後,基盤モデルのための⾃⼰教師あり学習が登場す
る可能性は⼤いにある
From Transformer to FMs(1/N)
12
CLIPは画像と⾔語のモダリティをより近づけた
CLIPには強いタスクと弱いタスクが混在
↓
苦⼿な領域が存在するので
拡張が求められていた
↓
Florence
3つの追加学習軸
From Transformer to FMs(1/N)
13
Transformer → FMs 3つのポイント
● 複数モダリティ・単⼀モデル
● 画像・⾔語・⾳声を⼀つのTransformerモデルで扱える
● 同時に扱えるモダリティは増加傾向
● モデル・データのサイズ増加
● データ︓数億〜数⼗億規模(e.g., DALL-E, Scaling ViT)
● モデル︓千億パラメータ規模 (e.g., GPT-3, LaMDA)
● ラベルなしデータで事前学習
● ⾃⼰教師あり学習の台頭
● マルチモーダルの教師なし学習
Ad

More Related Content

What's hot (20)

自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 

Similar to 【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models (18)

Evaluation of an open-access large-scale language model capable of speaking J...
Evaluation of an open-access large-scale language model capable of speaking J...Evaluation of an open-access large-scale language model capable of speaking J...
Evaluation of an open-access large-scale language model capable of speaking J...
Ryousuke Wayama
 
オープンソースを利用したモデル駆動トライアル
オープンソースを利用したモデル駆動トライアルオープンソースを利用したモデル駆動トライアル
オープンソースを利用したモデル駆動トライアル
Akira Tanaka
 
【CVPR 2020 メタサーベイ】Representation Learning
【CVPR 2020 メタサーベイ】Representation Learning【CVPR 2020 メタサーベイ】Representation Learning
【CVPR 2020 メタサーベイ】Representation Learning
cvpaper. challenge
 
2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis
n-yuki
 
"The Coming-of-Age of Software Architecture Research" 紹介
"The Coming-of-Age of Software Architecture Research" 紹介"The Coming-of-Age of Software Architecture Research" 紹介
"The Coming-of-Age of Software Architecture Research" 紹介
Tadayoshi Sato
 
20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ
Hirono Jumpei
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
 
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
Sho Tanaka
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
Shun Shiramatsu
 
EfficientDet: Scalable and Efficient Object Detection
EfficientDet: Scalable and Efficient Object DetectionEfficientDet: Scalable and Efficient Object Detection
EfficientDet: Scalable and Efficient Object Detection
harmonylab
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
Shohei Hido
 
機械学習応用のためのソフトウェアエンジニアリングパターン
機械学習応用のためのソフトウェアエンジニアリングパターン機械学習応用のためのソフトウェアエンジニアリングパターン
機械学習応用のためのソフトウェアエンジニアリングパターン
HironoriTAKEUCHI1
 
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
慎一 古賀
 
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
Hironori Washizaki
 
BigData Conference 2015 Autmun
BigData Conference 2015 AutmunBigData Conference 2015 Autmun
BigData Conference 2015 Autmun
ドワンゴ 人工知能研究所
 
DeepSeek: Everything you need to know about the AI chatbot app
DeepSeek: Everything you need to know about the AI chatbot appDeepSeek: Everything you need to know about the AI chatbot app
DeepSeek: Everything you need to know about the AI chatbot app
AtsushiIde3
 
Toward Research that Matters
Toward Research that MattersToward Research that Matters
Toward Research that Matters
Ryohei Fujimaki
 
Evaluation of an open-access large-scale language model capable of speaking J...
Evaluation of an open-access large-scale language model capable of speaking J...Evaluation of an open-access large-scale language model capable of speaking J...
Evaluation of an open-access large-scale language model capable of speaking J...
Ryousuke Wayama
 
オープンソースを利用したモデル駆動トライアル
オープンソースを利用したモデル駆動トライアルオープンソースを利用したモデル駆動トライアル
オープンソースを利用したモデル駆動トライアル
Akira Tanaka
 
【CVPR 2020 メタサーベイ】Representation Learning
【CVPR 2020 メタサーベイ】Representation Learning【CVPR 2020 メタサーベイ】Representation Learning
【CVPR 2020 メタサーベイ】Representation Learning
cvpaper. challenge
 
2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis
n-yuki
 
"The Coming-of-Age of Software Architecture Research" 紹介
"The Coming-of-Age of Software Architecture Research" 紹介"The Coming-of-Age of Software Architecture Research" 紹介
"The Coming-of-Age of Software Architecture Research" 紹介
Tadayoshi Sato
 
20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ
Hirono Jumpei
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
 
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
Sho Tanaka
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
Shun Shiramatsu
 
EfficientDet: Scalable and Efficient Object Detection
EfficientDet: Scalable and Efficient Object DetectionEfficientDet: Scalable and Efficient Object Detection
EfficientDet: Scalable and Efficient Object Detection
harmonylab
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
Shohei Hido
 
機械学習応用のためのソフトウェアエンジニアリングパターン
機械学習応用のためのソフトウェアエンジニアリングパターン機械学習応用のためのソフトウェアエンジニアリングパターン
機械学習応用のためのソフトウェアエンジニアリングパターン
HironoriTAKEUCHI1
 
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
慎一 古賀
 
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
Hironori Washizaki
 
DeepSeek: Everything you need to know about the AI chatbot app
DeepSeek: Everything you need to know about the AI chatbot appDeepSeek: Everything you need to know about the AI chatbot app
DeepSeek: Everything you need to know about the AI chatbot app
AtsushiIde3
 
Toward Research that Matters
Toward Research that MattersToward Research that Matters
Toward Research that Matters
Ryohei Fujimaki
 
Ad

【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models

  • 1. From Transformer to Foundation Models Transformerから基盤モデルまでの流れ cvpaper.challenge 1 http://xpaperchallenge.org/cv
  • 2. 基盤モデル | Foundation models 2 Foundation models @On the Opportunities and Risks of Foundation Models ̶ any model that is trained on broad data at scale and can be adapted (e.g., fine-tuned) to a wide range of downstream tasks... 広範なデータにより学習され(追加学習等により)広い範囲の下流タスクに適用可能なモデル 基盤モデル Photo from Stanford HAI
  • 3. Foundation modelsが⽬指す先とは? 3 AGI: Artificial General Intelligence*(汎⽤⼈⼯知能) ̶ 汎⽤的にタスクを解く⼈⼯知能に対する挑戦 Robotics Vision Language Audio Foundation Model Philosophy Interaction ・・・まだまだ広がりを見せようとしている *: AGIは人工知能の究極の目標のひとつと言われます が,Foundation Modelsの目的は種々あります
  • 4. 2022年現在,基盤モデルの衝撃 4 CVとしては“Florence”と“DALL•E2”が主⼒︕ https://openai.com/dall-e-2/ https://arxiv.org/pdf/2111.11432.pdf 画像・動画・⾔語と広範なタスクを同時処理 ● 画像/動画と⾔語を別々に学習して統合 ● 9億もの画像・⾔語ペアにより学習して基盤モデル構築 ● 実に44タスク(データセット)を⾼度に認識、うち多くの タスクにて最⾼⽔準の精度まで到達 ⾔語から⾼精細な画像を⽣成 ● CLIP: 画像・⾔語空間の対応関係を⾼度に学習 ● Diffusion Models: ノイズ復元により⾼解像な画像描画 ● WEB上から収集した数億の画像・⾔語ペアにより学習して Text-to-Imageのモデルを構築 ● この結果,AIは創造性を持ったと総評されるに⾄る 次ページよりTransformer〜Foudation Models(FMs)に⾄るまでを解説↓
  • 5. From Transformer to FMs(1/N) 5 ⾃然⾔語処理 (NLP)分野でTransformerが提案 ● Transformer ● Self-attention (⾃⼰注視)機構により系 列データを⼀括処理 ● “Attention Is All You Need”とタイトル を名付けるくらいには衝撃的だった ● 学習時間短縮・性能向上を同時に実現 【Why Transformer?】 Transformerの提案論⽂ “Attention Is All You Need”(NIPS 2017)にて,機械翻訳タスク(Neural Machine Translation; NMT)を⾼度に解いたモデル だからだと思っているのですが諸説あり︖ Transformerについてはこちらも参照 https://www.slideshare.net/cvpaperchallenge/transformer-247407256
  • 6. From Transformer to FMs(1/N) 6 NLP分野にてTransformerが拡がる ● BERT(Bi-directional Encoder Representations from Transformers) ● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル ● ⽂章の「意味を理解」することができるようになったと話題 ● なぜBERTが躍進したか︖ ● ⾃⼰教師学習によりラベルなし⽂章を学習に適⽤可能 ● 双⽅向モデルにつき,単語の前後から⽂脈を把握 https://arxiv.org/abs/1810.04805 BERTでは多くのタスクを単⼀モデルで解くことが できるが,その学習は「⽂章のマスクと復元」の ⾃⼰教師あり学習により実施される Attention is All You Need.(元データ) ↓ 意図的に⽋損作成 Attention is All ___ Need.(復元前) ↓ BERTにより推定 Attention is All You Need.(復元後)
  • 7. GPT-3論⽂はNeurIPS 2020にて Best Paper Awardを獲得 From Transformer to FMs(1/N) 7 ⼈間レベルの⽂章⽣成を可能にした ● GPT(Generative Pre-trained Transformer) ● 与えられた⽂章の先を予測して⽂章⽣成 ● 拡張される度にパラメータ数 / 学習テキストサイズが⼀気に増加 ○ GPT-1: 1.2億パラメータ ○ GPT-2: 15億パラメータ, 40GBテキスト ○ GPT-3: 1750億パラメータ, 570GBテキスト ○ 想像を絶するパラメータ数の増加により⼤幅な性能改善が⾒られた ● 「シンギュラリティが来た」と⾔われるくらいの⽂章⽣成能⼒を獲得 https://arxiv.org/pdf/2005.14165.pdf https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537
  • 8. Transformerは尚もNLP分野にて進展,Audio/Robotics分野にも展開 From Transformer to FMs(1/N) 8 その後もTransformerの勢いは⽌まらない Attentionこそ全て︕ ⽂章の先を予測︕ (その後⼤規模化により GPT-2/3に改良) ⽂章の⽂脈を双⽅向 から理解︕マスク・ 復元により⾃⼰教師 学習 画像と⾔語を処理 畳み込みとの融合により 画像認識(検出)を実現 純粋にTransformer構造で画像認識 その後,⼊⼒の⼯夫で動画認識 Natural Language Processing Natural Language Processing Vision & Language Computer Vision
  • 9. From Transformer to FMs(1/N) 9 Vision Transformer(ViT) ● 純Transformer構造により画像認識 ● 画像パッチを単語と⾒なして処理 ● Encoderのみ使⽤ / MLPを通して出⼒ ● ViTの後にも亜種が登場 ● CNN + Transformer: CvT, ConViT(擬似畳込み), CMT, CoAtNet ● MLP: MLP-Mixer, gMLP ● ViT: DeiT, Swin Transformer ViT [Dosovitskiy+, ICLR21] 【Vision Transformer】 【Swin Transformer V1/V2】 Swin Transformer V1 [Liu+, ICCV21] Swin Transformer V2 [Liu+, CVPR22]
  • 10. From Transformer to FMs(1/N) 10 ViTでも自己教師あり学習できることを実証 ● ViTでは教師あり学習 @ ImageNet-1k/22k, JFT-300MGoogleが誇る3億のラベル付画像データ ● 最初はContrastive Learning (対照学習)が提案・使⽤ ● SimCLR / MoCo / DINOいずれもViTを学習可能 SimCLR [Chen+, ICML20] DINO [Caron+, ICCV21] ⾃⼰教師あり学習ではContrastive Learningが主流の1つ(だった) Transformerへ適⽤する研究も多数 MoCo [He+, CVPR20]
  • 11. From Transformer to FMs(1/N) 11 ViTにおける自己教師あり学習の真打ち!? ● “ViTでBERTする” Masked AutoEncoder (MAE) ● 画像・⾔語・⾳声の⾃⼰教師あり学習 Data2vec MAE [He+, CVPR22] Data2vec [Baevski+, arXiv22] どちらも「マスクして復元」という⽅法論 ● MAEは画像における⾃⼰教師あり学習 ● Data2vecは3つのモダリティ(但しFTは個別) ● 今後,基盤モデルのための⾃⼰教師あり学習が登場す る可能性は⼤いにある
  • 12. From Transformer to FMs(1/N) 12 CLIPは画像と⾔語のモダリティをより近づけた CLIPには強いタスクと弱いタスクが混在 ↓ 苦⼿な領域が存在するので 拡張が求められていた ↓ Florence 3つの追加学習軸
  • 13. From Transformer to FMs(1/N) 13 Transformer → FMs 3つのポイント ● 複数モダリティ・単⼀モデル ● 画像・⾔語・⾳声を⼀つのTransformerモデルで扱える ● 同時に扱えるモダリティは増加傾向 ● モデル・データのサイズ増加 ● データ︓数億〜数⼗億規模(e.g., DALL-E, Scaling ViT) ● モデル︓千億パラメータ規模 (e.g., GPT-3, LaMDA) ● ラベルなしデータで事前学習 ● ⾃⼰教師あり学習の台頭 ● マルチモーダルの教師なし学習