【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論

http://deeplearning.jp/
Flamingo: a Visual Language Model for Few-Shot Learning
画像×言語の大規模基盤モデルによる少量プロンプト推論
山本貴之（ヤフー株式会社）
DEEP LEARNING JP
[DL Papers]
1

書誌情報
Flamingo: a Visual Language Model for Few-Shot Learning
画像×言語の大規模基盤モデルによる少量プロンプト推論
https://arxiv.org/abs/2204.14198
タイトル：
著者： Jean-Baptiste Alayrac*,
‡, Jeff Donahue*, Pauline Luc*, Antoine Miech*, Iain Barr†, Yana Hasson†, Karel
Lenc†, Arthur Mensch†, Katie Millican†, Malcolm Reynolds†, Roman Ring†, Eliza Rutherford†, Serkan
Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud,
Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals,
Andrew Zisserman, Karen Simonyan*,‡
*Equal contributions, ordered alphabetically, †Equal contributions, ordered alphabetically, ‡Equal senior contributions
GPT-3の画像×言語版
概要：
2
選定理由：学習済の画像と言語のモデルを使い、それらをドメイン適応する手法に対する興味
(NeurIPS 2022 Poster) DeepMind
公式実装：なし
※出典記載の無い図表は本論文からの引用

Flamingoは何が出来るモデルか？
3
画像とテキストの系列をプロンプト入力すると、その続きのテキスト系列を出力するモデル
画像（or 動画）
系列入力
テキスト
Token
画像１
テキスト
系列入力
テキスト
Token
テキスト
Token
テキスト
Token
画像２画像３
テキスト
系列出力
テキスト
Token
テキスト
Token
テキスト
Token
テキスト
Token
Flamingoモデル
・・・・・・
・・・
※輪読者作図

Flamingoは何が出来るのか？実例
4
画像とテキストを組み合わせたプロンプトを入力 → その続きのテキストを生成

Flamingoは何が出来るのか？ゼロショットで動画QAや画像チャット
5
画像チャット応答も可能（左図）
画像の代わりに動画もOK （上図）
ゼロショットQ&Aも可能

Flamingoのポイント
6
学習済モデルを
重み固定で利用
画像とテキスト間の
ドメイン適応部を学習
画像/動画(=視覚)は
一定次元ベクトルに圧縮
汎用性を高めている
 言語：サイズ70BのChinchilla (Hoffmann et al., 2022）
 画像：サイズ435MのNFNet-F6（Brock et al., 2021）
 XAttn-Denseで言語と画像学習済モデルを結合
学習する部分
Flamingoオリジナルの構造の提案手法
画像/動画
＆
自然言語
Andrew Brock, Soham De, Samuel L. Smith, and Karen Simonyan. High-performance largescale image recognition without normalization. arXiv:2102.06171, 2021.
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, JohannesWelbl, Aidan Clark, Eric Noland
Tom Hennigan, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. Training
compute-optimal large language models. arXiv:2203.15556, 2022.
 Perceiverで画像or動画を一定の潜在ベクトルに圧縮
学習する部分
関連研究として後述

関連研究 Perceiver 長期時系列×高次元データの圧縮
7
全体アーキテクチャ図（次のページから詳細説明）

関連研究 Perceiver モデルアーキテクチャ図入力部
8
潜在表現（圧縮先）
系列長N×各D次元
入力データ（圧縮元）
系列長M×各C次元
初期値はσ=0.02で
-2～+2範囲のガウスノイズ
Perceiver入力部抜粋
動画/画像など系列が長く高次元のデータ
潜在表現(N×D)に圧縮

関連研究 Perceiver モデルアーキテクチャ図全体
9
Cross Attention + Latent Transformerブロックの繰り返し（再帰的）構造
重みは共有する場合としない場合がある（任意）
ブロックブロック
繰返し数を
レイヤー数と呼ぶ
GPT-2アーキテクチャを利用
SelfAttention+Dense
系列N方向に平均し
D次元のLogitsを生成

関連研究 Perceiver モデルアーキテクチャ図 CrossAttention部
10
→ QKTを計算する為K入力をD次元にしCrossAttentionに入力
LayerNorm
Cross
Attention
Q
K
V
Q
MLP
D次元へ
K
MLP
D次元へ
V
MLP
C次元へ
MLP
Q次元へ
LayerNorm
N×C次元
N×D次元
潜在表現
系列長N× D次元
入力データ
系列長M× C次元
Residual経路
出力
※輪読者が公式実装を参考に作図
CrossAttentionでの次元数変化
Attention式 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝐾𝑇
𝑑𝑘
𝑉
𝑄𝐾𝑇 →[N,D][D,M]→[N,M]
× 𝑉 →[N,M][M,C]→[N,C]
MLP→[N,D]
Attention式 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝐾𝑇
𝑑𝑘
𝑉
M×D次元
M×C次元
N×D次元

Flamingo モデルアーキテクチャ図（全体）
11
画像と言語モデルは重み固定→破滅的忘却を防止ピンク色部分のみを学習
画像入力
テキスト入力
テキスト出力

次に、画像や動画入力部を説明
12
次に
この部分の詳細を説明

Flamingoモデルアーキテクチャ Vision Encoder & Perceiver Resampler 部
13
K,VにQもconcatしているのは、オリジナルPerceiverと違う
Perceiverにより、様々なサイズの画像や動画に対応
どんな長さ×次元でもOK
潜在
画像
動画

次に、ドメイン適応部を説明（Flamingoのキモ）
14
次に、この部分の詳細を説明

Flamingo ドメイン適応 Gated X-Attention部
15
X-Attention
視覚系列入力テキスト系列入力
ゲート機構
CrossAttention(X-Attention)で
視覚とテキストをドメイン適応
１
CrossAttentionはPerceiver構造
を参考にQとKVが別次元でもOK
２
ゲート機構がある（詳細後述）
３
LM layerとGATED XATTN-DENSE
が複数層重なっている
４
系列長
64token

Flamingo ドメイン適応 Gate機構詳細
16
ゲート機構とは
学習するパラメータα（1次元）のレイヤーの事
αの初期値は０なので学習初期はResidual経路になる
ゲート：tanh(α）
Residual
バイパス
Residual
バイパス
tanh関数
ゲート出力を -1 ～ +1 にする為
ゲート：tanh(α）

Flamingo ドメイン適応模擬コードでの理解
17
αは初期値０
学習により変化
アテンション出力 * tanh(α)
+ Residual

次に、画像系列をテキスト系列にインターリーブする部分を説明
18
次に、この部分を説明

Flamingo インターリーブのロジック
19
濃色部分のみX-Attentionにアタッチされる
Image1
犬
Image2
猫
<image>
タグ
<image>
タグ
すなわち、テキスト系列の関係する部分にのみ、該当する視覚の情報が入る

Flamingo 学習データセット（全てWEBスクレイプデータ）
20
Flamingo自体の学習データセット（言語と画像の学習済モデルではない）
名称サイズ・内容特徴重みλ データイメージ
M3W
Multi-Modal
Massive Web
43.3M instance
テキスト容量 182GB
画像枚数 185M
 複数画像がありインター
リーブ学習に適している
1.0
VTP
Video & Text
Pairs
27M instance
動画テキストペア
 動画
 説明的なテキスト
 比較的高品質
0.03
LTIP
Long Text
& Image Pairs
312M instance
画像テキストペア
 長文で説明的なテキスト
 比較的高品質
0.2
ALIGN
A Large-scale
ImaGe and
Noisy-text
1,800M instance
画像テキストペア
 低品質だが大量
 画像とAlt-Text(短文）
0.2
ALIGNの画像出典：Jia, C., Yang, Y., Xia, Y., Chen, Y. T., Parekh, Z., Pham, H., ... & Duerig, T. (2021, July). Scaling up visual and vision-language representation learning
with noisy text supervision. In International Conference on Machine Learning (pp. 4904-4916). PMLR.

視覚
l番目までの内
最後尾のもの
視覚
l番目までの内
最後尾のもの
テキスト
l-1番目まで
l番目の
テキスト
視覚
テキスト
lは系列
位置
Flamingo 学習手法
21
視覚条件付きテキスト尤度
テキスト尤度をモデル化できるのがFlamingoの重要な点（視覚をインターリーブした上で）
学習は、視覚言語シーケンス長Lのミニバッチを、各データセットMの特性に応じた重みλを乗じて
モデルの負の対数尤度と学習データ分布の交差エントロピーの加重和を最小化するよう学習
交差エントロピーの加重和
学習データ
種類
学習データ
分布
※
モデル分布
負の対数尤度
重み

Flamingoのモデル3種と学習時間等
22
項目値
TPUチップ数 1,536個
日数 15日間
パラメータ数 806億（内、学習部分は102億）
Flamingoのモデル３種（特に記載がない場合は最大モデルの事）
学習時間等

Flamingo モデルのハイパーパラメータ
23
項目値
言語モデル 80層
XATTN挿入箇所
1層目+各x7層毎の前
(1,7,14,21,28,35,42,49,56,63,70,77)
XATTN層数 12層
Flamingo各モデルのパイパーパラメータ
Flamingoモデルのレイヤー構造
層
次元
ヘッド
言語
レイヤー構造図

実験結果従来タスク精度を100%とした時のFlamingoの相対性能
ゼロもしくはFew-shotという同一比較条件では
16のタスクでSotA
100%ラインが従来のSotA。FineTuning等を行った従来最善の結果
上から6タスク（OKVQAまで）は、提案手法Few-shotでSotA
グレー色は、従来手法でゼロもしくはFew-shotでの結果
※16タスク目のRareActはこのグラフでは省略されている
24

実験結果 FlamingoはFew-shotで高い精度を実現
25
従来タスク
Zero/Few
shot
提案手法
Few
shot
従来タスク
FineTune

26
アブレーションスタディ
Tanhゲート -4.4%
学習データmix -21.5%
基準（小モデル）
X-ATTN構造 -11.0%
Perceiver構造 -5.1%
言語モデル学習 -1.2%
・VANILLA XATTN：オリジナルTransformer
・Grafting：2022年論文で類似目的手法

まとめ
結論
 Few-shotで画像/動画を理解する言語タスクに応用できるFlamingoモデルの紹介
 Few-shotによる様々なタスクで最先端の性能を発揮
 タスク固有のFineTuningを要する既存手法に対して、競争力のある性能を発揮
 画像/動画に対するチャットQAのような対話能力は、従来手法を超える柔軟性
 言語と視覚を橋渡しするFlamingoが、汎用的視覚理解への重要な一歩を踏み出した
27
感想
 学習データの「質が重要」と記載があるが、そのデータはWEBスクレイプデータのみ
→質を担保する手法が気になる
 思ったよりドメイン適応学習が計算資源を使う為、ここがFew-shotで出来る手法がないか
 大規模学習済モデルをリーズナブルに複数繋げられれば（ドメイン適応）、事業応用の幅が広がりそう

【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論

Recommended

More Related Content

What's hot (20)

Similar to 【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論 (10)

More from Deep Learning JP (20)

【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論