【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models

From Transformer to Foundation Models
Transformerから基盤モデルまでの流れ
cvpaper.challenge
1
http://xpaperchallenge.org/cv

基盤モデル | Foundation models
2
Foundation models @On the Opportunities and Risks of Foundation Models
̶ any model that is trained on broad data at scale and can be
adapted (e.g., fine-tuned) to a wide range of downstream tasks...
広範なデータにより学習され(追加学習等により)広い範囲の下流タスクに適用可能なモデル
基盤モデル
Photo from Stanford HAI

Foundation modelsが⽬指す先とは?
3
AGI: Artificial General Intelligence*（汎⽤⼈⼯知能）
̶ 汎⽤的にタスクを解く⼈⼯知能に対する挑戦
Robotics
Vision
Language
Audio
Foundation
Model
Philosophy
Interaction
・・・まだまだ広がりを見せようとしている
*: AGIは人工知能の究極の目標のひとつと言われます
が，Foundation Modelsの目的は種々あります

2022年現在，基盤モデルの衝撃
4
CVとしては“Florence”と“DALL•E2”が主⼒︕
https://openai.com/dall-e-2/
https://arxiv.org/pdf/2111.11432.pdf
画像・動画・⾔語と広範なタスクを同時処理
● 画像/動画と⾔語を別々に学習して統合
● 9億もの画像・⾔語ペアにより学習して基盤モデル構築
● 実に44タスク（データセット）を⾼度に認識、うち多くの
タスクにて最⾼⽔準の精度まで到達
⾔語から⾼精細な画像を⽣成
● CLIP: 画像・⾔語空間の対応関係を⾼度に学習
● Diffusion Models: ノイズ復元により⾼解像な画像描画
● WEB上から収集した数億の画像・⾔語ペアにより学習して
Text-to-Imageのモデルを構築
● この結果，AIは創造性を持ったと総評されるに⾄る
次ページよりTransformer〜Foudation Models(FMs)に⾄るまでを解説↓

From Transformer to FMs（1/N）
5
⾃然⾔語処理 (NLP)分野でTransformerが提案
● Transformer
● Self-attention (⾃⼰注視)機構により系
列データを⼀括処理
● “Attention Is All You Need”とタイトル
を名付けるくらいには衝撃的だった
● 学習時間短縮・性能向上を同時に実現
【Why Transformer?】
Transformerの提案論⽂ “Attention Is All You
Need”(NIPS 2017)にて，機械翻訳タスク(Neural
Machine Translation; NMT)を⾼度に解いたモデル
だからだと思っているのですが諸説あり︖
Transformerについてはこちらも参照
https://www.slideshare.net/cvpaperchallenge/transformer-247407256

6
NLP分野にてTransformerが拡がる
● BERT(Bi-directional Encoder Representations from Transformers)
● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル
● ⽂章の「意味を理解」することができるようになったと話題
● なぜBERTが躍進したか︖
● ⾃⼰教師学習によりラベルなし⽂章を学習に適⽤可能
● 双⽅向モデルにつき，単語の前後から⽂脈を把握
https://arxiv.org/abs/1810.04805
BERTでは多くのタスクを単⼀モデルで解くことが
できるが，その学習は「⽂章のマスクと復元」の
⾃⼰教師あり学習により実施される
Attention is All You Need.（元データ）
↓ 意図的に⽋損作成
Attention is All ___ Need.（復元前）
↓ BERTにより推定
Attention is All You Need.（復元後）

GPT-3論⽂はNeurIPS 2020にて
Best Paper Awardを獲得
7
⼈間レベルの⽂章⽣成を可能にした
● GPT(Generative Pre-trained Transformer)
● 与えられた⽂章の先を予測して⽂章⽣成
● 拡張される度にパラメータ数 / 学習テキストサイズが⼀気に増加
○ GPT-1: 1.2億パラメータ
○ GPT-2: 15億パラメータ, 40GBテキスト
○ GPT-3: 1750億パラメータ, 570GBテキスト
○ 想像を絶するパラメータ数の増加により⼤幅な性能改善が⾒られた
● 「シンギュラリティが来た」と⾔われるくらいの⽂章⽣成能⼒を獲得
https://arxiv.org/pdf/2005.14165.pdf
https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537

Transformerは尚もNLP分野にて進展，Audio/Robotics分野にも展開
8
その後もTransformerの勢いは⽌まらない
Attentionこそ全て︕ ⽂章の先を予測︕
（その後⼤規模化により
GPT-2/3に改良）
⽂章の⽂脈を双⽅向
から理解︕マスク・
復元により⾃⼰教師
学習画像と⾔語を処理
畳み込みとの融合により
画像認識（検出）を実現
純粋にTransformer構造で画像認識
その後，⼊⼒の⼯夫で動画認識
Natural Language Processing Natural Language Processing Vision & Language Computer Vision

9
Vision Transformer（ViT）
● 純Transformer構造により画像認識
● 画像パッチを単語と⾒なして処理
● Encoderのみ使⽤ / MLPを通して出⼒
● ViTの後にも亜種が登場
● CNN + Transformer: CvT, ConViT(擬似畳込み),
CMT, CoAtNet
● MLP: MLP-Mixer, gMLP
● ViT: DeiT, Swin Transformer ViT [Dosovitskiy+, ICLR21]
【Vision Transformer】
【Swin Transformer V1/V2】
Swin Transformer V1 [Liu+, ICCV21]
Swin Transformer V2 [Liu+, CVPR22]

10
ViTでも自己教師あり学習できることを実証
● ViTでは教師あり学習 @ ImageNet-1k/22k, JFT-300MGoogleが誇る3億のラベル付画像データ
● 最初はContrastive Learning (対照学習)が提案・使⽤
● SimCLR / MoCo / DINOいずれもViTを学習可能
SimCLR [Chen+, ICML20] DINO [Caron+, ICCV21]
⾃⼰教師あり学習ではContrastive Learningが主流の1つ（だった）
Transformerへ適⽤する研究も多数
MoCo [He+, CVPR20]

11
ViTにおける自己教師あり学習の真打ち！？
● “ViTでBERTする” Masked AutoEncoder (MAE)
● 画像・⾔語・⾳声の⾃⼰教師あり学習 Data2vec
MAE [He+, CVPR22]
Data2vec [Baevski+, arXiv22]
どちらも「マスクして復元」という⽅法論
● MAEは画像における⾃⼰教師あり学習
● Data2vecは３つのモダリティ（但しFTは個別）
● 今後，基盤モデルのための⾃⼰教師あり学習が登場す
る可能性は⼤いにある

12
CLIPは画像と⾔語のモダリティをより近づけた
CLIPには強いタスクと弱いタスクが混在
↓
苦⼿な領域が存在するので
拡張が求められていた
↓
Florence
3つの追加学習軸

13
Transformer → FMs ３つのポイント
● 複数モダリティ・単⼀モデル
● 画像・⾔語・⾳声を⼀つのTransformerモデルで扱える
● 同時に扱えるモダリティは増加傾向
● モデル・データのサイズ増加
● データ︓数億〜数⼗億規模（e.g., DALL-E, Scaling ViT）
● モデル︓千億パラメータ規模 (e.g., GPT-3, LaMDA)
● ラベルなしデータで事前学習
● ⾃⼰教師あり学習の台頭
● マルチモーダルの教師なし学習

【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models

Recommended

More Related Content

What's hot (20)

Similar to 【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models (18)

【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models