ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
ZeroCap: Zero-Shot Image-to-Text Generation for
Visual-Semantic Arithmetic
Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf
School of Computer Science, Tel Aviv University

2
論文概要
目的
・CLIPのようなVision-Language Modelはマッチングやゼロショットタスクにお
いて有用であるが、Image-to-Textタスクへの応用ができていないことから、
その手法を提案する
手法
・ CLIPと言語モデル(GPT-2など)を組み合わせた文章生成タスクをZero-shot
で解く
結果
・より人間らしい多様なキャプションの生成された。また、CLIPの潜在空間
から画像同士の差分を文章で出力することで、意味論的演算も可能とした。
このことから、2 つの画像の比較や視覚的類推テストの解決などができそう
発表学会
・CVPR2022
論文URL
https://openaccess.thecvf.com/content/CVPR2022/papers/Tewel_ZeroCa
p_Zero-Shot_Image-to-Text_Generation_for_Visual-
Semantic_Arithmetic_CVPR_2022_paper.pdf
コード
https://github.com/YoadTew/zero-shot-image-to-text

3
ZeroCapsの出力例
ZeroCapsの特徴
• 従来手法と比較して、実世界の知識を示し、より多様なテキストを
生成できる
• 画像の書かれた内容に対処でき、視覚的意味演算を実行できる

4
背景
背景
• Image-to-Textタスクにおいて、画像中の様々なオブジェクトを学
習・推論するために教師ラベルを用意することは困難である
• 画像と自然言語を組み合わせたVision-Language Modelが流行る
– しかし、これ単体では文章を生成できず、文章生成のための追加
の学習が必要となる
→ Zero-shotでImage-to-Text可能な手法であるZeroCapを提案

5
関連研究
• CLIP*：Contrastive Language-Image Pre-training
– 画像処理と自然言語処理による事前学習手法
• これにより、初めて見た画像についてもうまく分類できるようになる
– 構造自体はResNetやViTとTransformerなどが用いられる
– 4億の画像とテキストのペア(WebImage Text データセット)で
Contrastive pre-trainingしている(単語数50万)
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From
_Natural_Language_Supervision.pdf

6
関連研究
• CLIP*：Contrastive Language-Image Pre-training
– 画像をEncodeしたベクトルと、テキストをEncodeしたベクトルの内積が正しい組
み合わせでは1、間違った組み合わせでは0となるように学習を行う
– 推論では、学習されたText Encoderを使用して、ターゲットとなるデータセットの
クラス名をEncodeし、Embeddingされたベクトルを取得、画像をEncodeしたベク
トルと内積を計算、最も高い値を持つラベルを正解とする
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From
_Natural_Language_Supervision.pdf
プロンプトエンジニアリング：言語モデ
ルへの入力の仕方で精度を引き出す手法

7
関連研究
• ClipCap*：学習済みのCLIPとGPT-2を組み合わせた画像の
キャプション生成手法
• 画像をCLIPで特徴ベクトルに変換
• Mapping Networkを用いて文の先頭に埋め込み
• GPT2はそれを入力にして続きの文章を出力
CLIPとGPT-2間の変換するためのネットワークを学習する必要あり
*Mokady, Ron, Amir Hertz, and Amit H. Bermano.
"Clipcap: Clip prefix for image captioning." arXiv preprint
arXiv:2111.09734 (2021).

8
提案手法
ZeroCap：CLIPと LM (GPT-2 ) を使用して、 Zero-shotで
Image-to-Textタスクを解く自己回帰モデル
ハクトウワシ
入力画像と近い表現を出力するようにLMを調整する
ための損失関数を提案

9
LM Language models
LM Language models：入力された文章から、次の単語を予測するモデル
• TransformerベースのLM(GPT-2)を用いる。Qはデコーダから、KとVは
エンコーダから受け取る
• LM の重みは固定し、出力がCLIPの出力が近くなるようにC𝑖𝑖を調整する
• 𝑪𝑪𝒊𝒊は各𝒊𝒊単語ごとに毎回調整される
𝑥𝑥𝑖𝑖 ：生成された𝑖𝑖番目の単語トークン
𝐾𝐾𝑗𝑗
𝑙𝑙
𝑉𝑉
𝑗𝑗
𝑙𝑙
：𝑙𝑙レイヤー、j番目のK,V値
𝐿𝐿：トランスフォーマーレイヤーのインデックス
論文では𝐿𝐿 = 24 レイヤーを持つ GPT-2 を使用
ZeroCap
ハクトウワシ

10
LM Language models
CLIP-Guided language modelling
LM の出力を画像と結びつけるため、以下の2つの目標と関数式(2)を設定
1. 指定された画像との整合
CLIPによってトークンと画像の関連性を評価し、それに応じてモデル (C𝑖𝑖) を調整
2. 言語属性を維持する
目標を元の目標出力、つまり変更前の出力と同様になるように正則化
本論文ではλ=0.2
�
𝑥𝑥𝑖𝑖+1: 調整前のC𝑖𝑖を使用して生成されたトークン分布(図のman出力)
第2項はクロスエントロピーロス(LCE)を用いて、調整したC𝑖𝑖の単語間の確率分
布が元のLMのものに近くなるようにする。
ZeroCap
ハクトウワシ
C𝑖𝑖調整後
の出力
C𝑖𝑖調整前
の出力

11
CLIP 損失関数
上位 512 個のトークン候補を計算し、残りのトークンの確率をゼロとする
𝑘𝑘 番目の候補トークンの対応する候補文 s𝑖𝑖
𝑘𝑘
= (𝑥𝑥1, ..., 𝑥𝑥𝑖𝑖−1, 𝑥𝑥𝑖𝑖
𝑘𝑘
) が画像 𝐼𝐼 と照合
𝑘𝑘 番目のトークンの条件付き確率は、下の式(3)で求める
DCLIP ： ETEXTとEImageのコサイン類似度
ETEXT・EImage：CLIPで計算される埋め込みされたベクトル
τc (τc = 0.01 )：は、ターゲット分布のシャープネスを制御するハイパーパラメーター
CLIP 損失関数式(4)：LMによって出力された次の
トークン 𝑥𝑥𝑖𝑖+1とターゲット分布𝑝𝑝𝑖𝑖のCE
CLIPの推論概要図
ZeroCap
ハクトウワシ

12
推論
推論時に、勾配降下を実行することにより、式 (2) の問題を最適化
→トークンが生成されるごとにC𝑖𝑖を計算し、最適化していく
※ゼロショット方式のため、学習による重みの更新はしない
C𝑖𝑖の更新式(簡略化したもの)を(5)に示す。
学習率α = 0.3
式(2)のこと
ZeroCap
ハクトウワシ

13
Beam Search
Beam Search：枝刈りをしながら探索するヒューリスティック
なアルゴリズム各単語の確率分布の選択はこれを使うビーム
数：5
バイトレベル(BPE)のトークナイザーは、256 バイトの基本トー
クンを使用して、存在するすべての単語を表す[56]
任意の単語を複数のサブワードに分割することもできます。た
とえば、単語「zebra」は「zeb」および「ra」としてトークン
化できる
→ 最終的には文字にまで分割されるので、頻出しない単語や未
知語もカバーする

14
Visual-Semantic Arithmetic
ビジュアルセマンティック
[22]より、CLIPのマルチモーダル表現が精巧な概念分類を保持しているこ
とが示唆
→CLIP の埋め込みを表現できないか？
例)
・2つの画像 I1、 I2 を用意する
・CLIPのエンコーダーを用いてEImage(I1)、 EImage(I2 )で画像をエンコード
・EImage(I1)+EImage(I2 )のように加算(もしくは減算)する
・Eq(3) 内のEImage(𝐼𝐼)の代わりに得られた結果を使用して、生成された文を
出力
→ 加算された概念のようなものが”𝑝𝑝“で表現されているのでは？
画像だけでなく、言語側でも同じことができる！

15
実験設定
LMの生成に関して
・同じ単語の繰り返しを防ぐため、最後の4つのタイムステップで生成さ
れたトークンの生成確率を1/2にする
・タイムステップ 𝑡𝑡𝑒𝑒から開始して、エンドトークンの確率に係数 𝑓𝑓𝑒𝑒を掛
けることで、生成されるテキストの長さを直接制御するメカニズムも組み
込む
画像キャプションタスク： 𝑓𝑓𝑒𝑒 = 1.04、𝑡𝑡𝑒𝑒 = 3
ビジュアルセマンティック： 𝑓𝑓𝑒𝑒 = 1.06、𝑡𝑡𝑒𝑒 = 1
ビーム数は5,候補トークンは512に設定
実行時間は、単一の Titan X GPU で3 秒で生成
使用データセット：MS-COCO

16
実験結果
人がアノテーションした文章との比較
BLEU [52]、METEOR [5]、CIDEr [66]、SPICE [2] CLIPScoreRef
スコアが大きく低いが、これは他手法がCOCOアノテーションで学習されている
→同じ人間グループが学習・テストを書いてるので優位になっている
ボキャブラリーの多様性は、他手法と比較して大きくリードしており、テスト
データセットのすべてをカバーしている(未知語なし)
教師なしのメトリクスCLIP-Sにおいて高い精度
CLIP-SはCLIPのテキストエンコーダを利用して生成文とのコサイン距離を計算す
る意味的関連性を評価する指標

17
実験結果
• キャプション生成タスク
1枚目 2枚目 3枚目 4枚目
従来
手法
歩道や浴室にあ
るバスルーム
水の上にある
船
通常の食事ト
レイ
バスルーム
提案
手法
屋上にあるバス
ルーム
船にあるテキ
スト
正しく機内食
と説明
肖像画のある
バーのトイレ

18
実験結果
1枚目 2枚目 3枚目 4枚目
従来
手法
鳥がとまって
いる
鏡とシンクの
あるバスルー
ム
グループベッドルーム
とポスター
提案
手法
アカハヤブサ
と固有名詞
メッシュタイ
ルパターンの
バスルーム
家族ポスターの内
容に触れる
• キャプション生成タスク

19
考察
• 従来手法のキャプションは一般的に同じパ
ターンだが、提案手法は斬新な文章を生成し
ている
• 従来手法(CLIP-VL と VinVL)はCOCOデータ
セットを使って調整されているので、テスト
時有利に働く点に注意

20
実験結果
• プロンプトを「Image of a」から「Image of text that
say」に変更
• 紙の画像から「ケネディ大統領の死」
• 看板から「スタンフォード大学」

21
実験結果
• 有名人 (トランプなど)、アニメ番組 (シンプソ
ンズなど)、都市 (マンハッタンなど)、映画
(アベンジャーズなど)
実世界の知識を必要とするキャプション例

22
実験結果
ビジュアルセマンティック減算
• 飛行機の似顔絵から飛行機を差し引いた結果、似顔絵イラスト
といったキャプションが得られる
• また、実物の飛行機と似顔絵イラストを入れると、左の画像と
一致する
• オリの中のシマウマーシマウマ=監獄
• 沢山のバスケットボールーバスケットボール = 束
• 夜景ー景色 = 地球の夜

23
実験結果
ビジュアルセマンティック減算
• 赤いリンゴから青りんごを引くと赤
• 雪のなかのシロクマー砂漠のシロクマ=雪
• スケボーの大会ースケボー = イベント
• スケボーースケボーの大会 = 模試化石ビュー？？
→ 引かれる側の要素がなくなるので、意味不明な出力になるようです

24
実験結果
ビジュアルセマンティック加算
• 走っている男性 + 警官の帽子 =警察官が走っている
• 男性 + ハンマー = 裁判官
• 電話 + りんご = iPhoneがリリースされた
• 木 + カナダ国旗 =Toronto maple(トロントの楓)

25
実験結果
多様な視覚演算の実験(概念の抽出)
オバマ大統領- アメリカ国旗=リーダーシップ
ドイツ + リーダーシップ = メルケル首相

26
実験結果
多様な視覚演算の実験(概念の抽出)
マイクロソフトービル・ゲイツ = CEO
マーク・ザッカーバーグ + CEO = Facebook
イタリアーピザ=国ー食べ物への方向性？
フランスパン + 国ー食べ物 = フランス

27
実験結果
建物→国、国→資本、食品→国、リーダー→国、CEO→会社
など320の関係を定量的に評価するベンチマーク“VR”を提案
→この項目は、多対1であることから、関係性を視覚的にモ
デル化する能力と、実際の知識を用いる2つの能力を測定す
るために設計
B@1：BLEU-1
R@5：Recall@5 生成された最初の 5 つの単語内の単語の再現率
C-s：意味的関連性を示す CLIP スコア。

28
実験結果
自然言語を使った演算
“夜のイメージ”ー“昼のイメージ”=昼夜の方向を取得
“朝食” + 昼夜の方向ベクトル=夜のディナーシーン
“東京のイメージ”ー“日本のイメージ”=首都
“フランス” + 首都 = パリ

29
まとめ
概要
・CLIPと LM (GPT-2 ) を使用して、 Zero-shotでImage-to-
Textタスクを解く自己回帰モデルであるZeroCapを提案
手法
・CLIPを用いて、言語モデルによって生成されたトークンのキーと
値のペア(𝐶𝐶)を、各推論ステップまでに画像の表現と近くなるよう
に調整する
実験結果
・生成されたキャプションは意味レベルで画像とよく一致し、現実
世界の情報も示していた
・ビジュアルセマンティックを実行可能
・2 つの画像の違いを言葉で説明する方法と、複数の画像の概念を
組み合わせる方法を示します。どちらも新しい高レベルの認識タス
ク

ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

Recommended

More Related Content

What's hot (20)

Similar to ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic (20)

More from harmonylab (20)

ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic