SlideShare a Scribd company logo
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ZeroCap: Zero-Shot Image-to-Text Generation for
Visual-Semantic Arithmetic
Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf
School of Computer Science, Tel Aviv University
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
論文概要
目的
・CLIPのようなVision-Language Modelはマッチングやゼロショットタスクにお
いて有用であるが、Image-to-Textタスクへの応用ができていないことから、
その手法を提案する
手法
・ CLIPと言語モデル(GPT-2など)を組み合わせた文章生成タスクをZero-shot
で解く
結果
・より人間らしい多様なキャプションの生成された。また、CLIPの潜在空間
から画像同士の差分を文章で出力することで、意味論的演算も可能とした。
このことから、2 つの画像の比較や視覚的類推テストの解決などができそう
発表学会
・CVPR2022
論文URL
https://openaccess.thecvf.com/content/CVPR2022/papers/Tewel_ZeroCa
p_Zero-Shot_Image-to-Text_Generation_for_Visual-
Semantic_Arithmetic_CVPR_2022_paper.pdf
コード
https://github.com/YoadTew/zero-shot-image-to-text
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
ZeroCapsの出力例
ZeroCapsの特徴
• 従来手法と比較して、実世界の知識を示し、より多様なテキストを
生成できる
• 画像の書かれた内容に対処でき、視覚的意味演算を実行できる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
背景
背景
• Image-to-Textタスクにおいて、画像中の様々なオブジェクトを学
習・推論するために教師ラベルを用意することは困難である
• 画像と自然言語を組み合わせたVision-Language Modelが流行る
– しかし、これ単体では文章を生成できず、文章生成のための追加
の学習が必要となる
→ Zero-shotでImage-to-Text可能な手法であるZeroCapを提案
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
関連研究
• CLIP*:Contrastive Language-Image Pre-training
– 画像処理と自然言語処理による事前学習手法
• これにより、初めて見た画像についてもうまく分類できるようになる
– 構造自体はResNetやViTとTransformerなどが用いられる
– 4億の画像とテキストのペア(WebImage Text データセット)で
Contrastive pre-trainingしている(単語数50万)
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From
_Natural_Language_Supervision.pdf
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
関連研究
• CLIP*:Contrastive Language-Image Pre-training
– 画像をEncodeしたベクトルと、テキストをEncodeしたベクトルの内積が正しい組
み合わせでは1、間違った組み合わせでは0となるように学習を行う
– 推論では、学習されたText Encoderを使用して、ターゲットとなるデータセットの
クラス名をEncodeし、Embeddingされたベクトルを取得、画像をEncodeしたベク
トルと内積を計算、最も高い値を持つラベルを正解とする
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From
_Natural_Language_Supervision.pdf
プロンプト エンジニアリング:言語モデ
ルへの入力の仕方で精度を引き出す手法
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
関連研究
• ClipCap*: 学習済みのCLIPとGPT-2を組み合わせた画像の
キャプション生成手法
• 画像をCLIPで特徴ベクトルに変換
• Mapping Networkを用いて文の先頭に埋め込み
• GPT2はそれを入力にして続きの文章を出力
CLIPとGPT-2間の変換するためのネットワークを学習する必要あり
*Mokady, Ron, Amir Hertz, and Amit H. Bermano.
"Clipcap: Clip prefix for image captioning." arXiv preprint
arXiv:2111.09734 (2021).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
提案手法
ZeroCap:CLIPと LM (GPT-2 ) を使用して、 Zero-shotで
Image-to-Textタスクを解く自己回帰モデル
ハクトウワシ
入力画像と近い表現を出力するようにLMを調整する
ための損失関数を提案
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
LM Language models
LM Language models:入力された文章から、次の単語を予測するモデル
• TransformerベースのLM(GPT-2)を用いる。Qはデコーダから、KとVは
エンコーダから受け取る
• LM の重みは固定し、出力がCLIPの出力が近くなるようにC𝑖𝑖を調整する
• 𝑪𝑪𝒊𝒊は各𝒊𝒊単語ごとに毎回調整される
𝑥𝑥𝑖𝑖 :生成された𝑖𝑖番目の単語トークン
𝐾𝐾𝑗𝑗
𝑙𝑙
𝑉𝑉
𝑗𝑗
𝑙𝑙
:𝑙𝑙レイヤー、j番目のK,V値
𝐿𝐿:トランスフォーマーレイヤーのインデックス
論文では𝐿𝐿 = 24 レイヤーを持つ GPT-2 を使用
ZeroCap
ハクトウワシ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
LM Language models
CLIP-Guided language modelling
LM の出力を画像と結びつけるため、以下の2つの目標と関数式(2)を設定
1. 指定された画像との整合
CLIPによってトークンと画像の関連性を評価し、それに応じてモデル (C𝑖𝑖) を調整
2. 言語属性を維持する
目標を元の目標出力、つまり変更前の出力と同様になるように正則化
本論文ではλ=0.2
�
𝑥𝑥𝑖𝑖+1: 調整前のC𝑖𝑖を使用して生成されたトークン分布(図のman出力)
第2項はクロスエントロピーロス(LCE)を用いて、調整したC𝑖𝑖の単語間の確率分
布が元のLMのものに近くなるようにする。
ZeroCap
ハクトウワシ
C𝑖𝑖調整後
の出力
C𝑖𝑖調整前
の出力
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
CLIP 損失関数
上位 512 個のトークン候補を計算し、残りのトークンの確率をゼロとする
𝑘𝑘 番目の候補トークンの対応する候補文 s𝑖𝑖
𝑘𝑘
= (𝑥𝑥1, ..., 𝑥𝑥𝑖𝑖−1, 𝑥𝑥𝑖𝑖
𝑘𝑘
) が画像 𝐼𝐼 と照合
𝑘𝑘 番目のトークンの条件付き確率は、下の式(3)で求める
DCLIP : ETEXTとEImageのコサイン類似度
ETEXT・EImage:CLIPで計算される埋め込みされたベクトル
τc (τc = 0.01 ):は、ターゲット分布のシャープネスを制御するハイパーパラメーター
CLIP 損失関数 式(4):LMによって出力された次の
トークン 𝑥𝑥𝑖𝑖+1とターゲット分布𝑝𝑝𝑖𝑖のCE
CLIPの推論概要図
ZeroCap
ハクトウワシ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
推論
推論時に、勾配降下を実行することにより、式 (2) の問題を最適化
→トークンが生成されるごとにC𝑖𝑖を計算し、最適化していく
※ゼロショット方式のため、学習による重みの更新はしない
C𝑖𝑖の更新式(簡略化したもの)を(5)に示す。
学習率α = 0.3
式(2)のこと
ZeroCap
ハクトウワシ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
Beam Search
Beam Search:枝刈りをしながら探索するヒューリスティック
なアルゴリズム 各単語の確率分布の選択はこれを使う ビーム
数:5
バイトレベル(BPE)のトークナイザーは、256 バイトの基本トー
クンを使用して、存在するすべての単語を表す[56]
任意の単語を複数のサブワードに分割することもできます。た
とえば、単語「zebra」は「zeb」および「ra」としてトークン
化できる
→ 最終的には文字にまで分割されるので、頻出しない単語や未
知語もカバーする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
Visual-Semantic Arithmetic
ビジュアルセマンティック
[22]より、CLIPのマルチモーダル表現が精巧な概念分類を保持しているこ
とが示唆
→CLIP の埋め込みを表現できないか?
例)
・2つの画像 I1、 I2 を用意する
・CLIPのエンコーダーを用いてEImage(I1)、 EImage(I2 )で画像をエンコード
・EImage(I1)+EImage(I2 )のように加算(もしくは減算)する
・Eq(3) 内のEImage(𝐼𝐼)の代わりに得られた結果を使用して、生成された文を
出力
→ 加算された概念のようなものが”𝑝𝑝“で表現されているのでは?
画像だけでなく、言語側でも同じことができる!
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験設定
LMの生成に関して
・同じ単語の繰り返しを防ぐため、最後の4つのタイムステップで生成さ
れたトークンの生成確率を1/2にする
・タイムステップ 𝑡𝑡𝑒𝑒から開始して、エンドトークンの確率に係数 𝑓𝑓𝑒𝑒を掛
けることで、生成されるテキストの長さを直接制御するメカニズムも組み
込む
画像キャプションタスク: 𝑓𝑓𝑒𝑒 = 1.04、𝑡𝑡𝑒𝑒 = 3
ビジュアルセマンティック: 𝑓𝑓𝑒𝑒 = 1.06、𝑡𝑡𝑒𝑒 = 1
ビーム数は5,候補トークンは512に設定
実行時間は、単一の Titan X GPU で3 秒で生成
使用データセット:MS-COCO
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験結果
人がアノテーションした文章との比較
BLEU [52]、METEOR [5]、CIDEr [66]、SPICE [2] CLIPScoreRef
スコアが大きく低いが、これは他手法がCOCOアノテーションで学習されている
→同じ人間グループが学習・テストを書いてるので優位になっている
ボキャブラリーの多様性は、他手法と比較して大きくリードしており、テスト
データセットのすべてをカバーしている(未知語なし)
教師なしのメトリクスCLIP-Sにおいて高い精度
CLIP-SはCLIPのテキストエンコーダを利用して生成文とのコサイン距離を計算す
る意味的関連性を評価する指標
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験結果
• キャプション生成タスク
1枚目 2枚目 3枚目 4枚目
従来
手法
歩道や浴室にあ
るバスルーム
水の上にある
船
通常の食事ト
レイ
バスルーム
提案
手法
屋上にあるバス
ルーム
船にあるテキ
スト
正しく機内食
と説明
肖像画のある
バーのトイレ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験結果
1枚目 2枚目 3枚目 4枚目
従来
手法
鳥がとまって
いる
鏡とシンクの
あるバスルー
ム
グループ ベッドルーム
とポスター
提案
手法
アカハヤブサ
と固有名詞
メッシュタイ
ルパターンの
バスルーム
家族 ポスターの内
容に触れる
• キャプション生成タスク
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
考察
• 従来手法のキャプションは一般的に同じパ
ターンだが、提案手法は斬新な文章を生成し
ている
• 従来手法(CLIP-VL と VinVL)はCOCOデータ
セットを使って調整されているので、テスト
時有利に働く点に注意
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
実験結果
• プロンプトを「Image of a」から「Image of text that
say」に変更
• 紙の画像から「ケネディ大統領の死」
• 看板から「スタンフォード大学」
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
実験結果
• 有名人 (トランプなど)、アニメ番組 (シンプソ
ンズなど)、都市 (マンハッタンなど)、映画
(アベンジャーズなど)
実世界の知識を必要とするキャプション例
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
実験結果
ビジュアルセマンティック 減算
• 飛行機の似顔絵から飛行機を差し引いた結果、似顔絵イラスト
といったキャプションが得られる
• また、実物の飛行機と似顔絵イラストを入れると、左の画像と
一致する
• オリの中のシマウマ ー シマウマ=監獄
• 沢山のバスケットボール ー バスケットボール = 束
• 夜景ー景色 = 地球の夜
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
実験結果
ビジュアルセマンティック 減算
• 赤いリンゴから青りんごを引くと赤
• 雪のなかのシロクマ ー 砂漠のシロクマ=雪
• スケボーの大会 ー スケボー = イベント
• スケボー ー スケボーの大会 = 模試化石ビュー??
→ 引かれる側の要素がなくなるので、意味不明な出力になるようです
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
実験結果
ビジュアルセマンティック 加算
• 走っている男性 + 警官の帽子 =警察官が走っている
• 男性 + ハンマー = 裁判官
• 電話 + りんご = iPhoneがリリースされた
• 木 + カナダ国旗 =Toronto maple(トロントの楓)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
実験結果
多様な視覚演算の実験(概念の抽出)
オバマ大統領- アメリカ国旗=リーダーシップ
ドイツ + リーダーシップ = メルケル首相
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
実験結果
多様な視覚演算の実験(概念の抽出)
マイクロソフトービル・ゲイツ = CEO
マーク・ザッカーバーグ + CEO = Facebook
イタリアーピザ=国ー食べ物への方向性?
フランスパン + 国ー食べ物 = フランス
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
実験結果
建物→国、国→資本、食品→国、リーダー→国、CEO→会社
など320の関係を定量的に評価するベンチマーク“VR”を提案
→この項目は、多対1であることから、関係性を視覚的にモ
デル化する能力と、実際の知識を用いる2つの能力を測定す
るために設計
B@1:BLEU-1
R@5:Recall@5 生成された最初の 5 つの単語内の単語の再現率
C-s:意味的関連性を示す CLIP スコア。
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
実験結果
自然言語を使った演算
“夜のイメージ”ー“昼のイメージ”=昼夜の方向を取得
“朝食” + 昼夜の方向ベクトル=夜のディナーシーン
“東京のイメージ”ー“日本のイメージ”=首都
“フランス” + 首都 = パリ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
まとめ
概要
・CLIPと LM (GPT-2 ) を使用して、 Zero-shotでImage-to-
Textタスクを解く自己回帰モデルであるZeroCapを提案
手法
・CLIPを用いて、言語モデルによって生成されたトークンのキーと
値のペア(𝐶𝐶)を、各推論ステップまでに画像の表現と近くなるよう
に調整する
実験結果
・生成されたキャプションは意味レベルで画像とよく一致し、現実
世界の情報も示していた
・ビジュアルセマンティックを実行可能
・2 つの画像の違いを言葉で説明する方法と、複数の画像の概念を
組み合わせる方法を示します。どちらも新しい高レベルの認識タス
ク
Ad

More Related Content

What's hot (20)

SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
nlab_utokyo
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identification
tancoro
 
Point net
Point netPoint net
Point net
Fujimoto Keisuke
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
Takuya Minagawa
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Deep Learning JP
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey
Deep Learning JP
 
Deep Semi-Supervised Anomaly Detection
Deep Semi-Supervised Anomaly DetectionDeep Semi-Supervised Anomaly Detection
Deep Semi-Supervised Anomaly Detection
ぱんいち すみもと
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
nlab_utokyo
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identification
tancoro
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Deep Learning JP
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey
Deep Learning JP
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 

Similar to ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic (20)

MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
RAPiD
RAPiDRAPiD
RAPiD
harmonylab
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
Ad

More from harmonylab (20)

【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究 【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究 【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
Ad

ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf School of Computer Science, Tel Aviv University
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 論文概要 目的 ・CLIPのようなVision-Language Modelはマッチングやゼロショットタスクにお いて有用であるが、Image-to-Textタスクへの応用ができていないことから、 その手法を提案する 手法 ・ CLIPと言語モデル(GPT-2など)を組み合わせた文章生成タスクをZero-shot で解く 結果 ・より人間らしい多様なキャプションの生成された。また、CLIPの潜在空間 から画像同士の差分を文章で出力することで、意味論的演算も可能とした。 このことから、2 つの画像の比較や視覚的類推テストの解決などができそう 発表学会 ・CVPR2022 論文URL https://openaccess.thecvf.com/content/CVPR2022/papers/Tewel_ZeroCa p_Zero-Shot_Image-to-Text_Generation_for_Visual- Semantic_Arithmetic_CVPR_2022_paper.pdf コード https://github.com/YoadTew/zero-shot-image-to-text
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 ZeroCapsの出力例 ZeroCapsの特徴 • 従来手法と比較して、実世界の知識を示し、より多様なテキストを 生成できる • 画像の書かれた内容に対処でき、視覚的意味演算を実行できる
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 背景 背景 • Image-to-Textタスクにおいて、画像中の様々なオブジェクトを学 習・推論するために教師ラベルを用意することは困難である • 画像と自然言語を組み合わせたVision-Language Modelが流行る – しかし、これ単体では文章を生成できず、文章生成のための追加 の学習が必要となる → Zero-shotでImage-to-Text可能な手法であるZeroCapを提案
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 関連研究 • CLIP*:Contrastive Language-Image Pre-training – 画像処理と自然言語処理による事前学習手法 • これにより、初めて見た画像についてもうまく分類できるようになる – 構造自体はResNetやViTとTransformerなどが用いられる – 4億の画像とテキストのペア(WebImage Text データセット)で Contrastive pre-trainingしている(単語数50万) https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From _Natural_Language_Supervision.pdf
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 関連研究 • CLIP*:Contrastive Language-Image Pre-training – 画像をEncodeしたベクトルと、テキストをEncodeしたベクトルの内積が正しい組 み合わせでは1、間違った組み合わせでは0となるように学習を行う – 推論では、学習されたText Encoderを使用して、ターゲットとなるデータセットの クラス名をEncodeし、Embeddingされたベクトルを取得、画像をEncodeしたベク トルと内積を計算、最も高い値を持つラベルを正解とする https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From _Natural_Language_Supervision.pdf プロンプト エンジニアリング:言語モデ ルへの入力の仕方で精度を引き出す手法
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 関連研究 • ClipCap*: 学習済みのCLIPとGPT-2を組み合わせた画像の キャプション生成手法 • 画像をCLIPで特徴ベクトルに変換 • Mapping Networkを用いて文の先頭に埋め込み • GPT2はそれを入力にして続きの文章を出力 CLIPとGPT-2間の変換するためのネットワークを学習する必要あり *Mokady, Ron, Amir Hertz, and Amit H. Bermano. "Clipcap: Clip prefix for image captioning." arXiv preprint arXiv:2111.09734 (2021).
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 提案手法 ZeroCap:CLIPと LM (GPT-2 ) を使用して、 Zero-shotで Image-to-Textタスクを解く自己回帰モデル ハクトウワシ 入力画像と近い表現を出力するようにLMを調整する ための損失関数を提案
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 LM Language models LM Language models:入力された文章から、次の単語を予測するモデル • TransformerベースのLM(GPT-2)を用いる。Qはデコーダから、KとVは エンコーダから受け取る • LM の重みは固定し、出力がCLIPの出力が近くなるようにC𝑖𝑖を調整する • 𝑪𝑪𝒊𝒊は各𝒊𝒊単語ごとに毎回調整される 𝑥𝑥𝑖𝑖 :生成された𝑖𝑖番目の単語トークン 𝐾𝐾𝑗𝑗 𝑙𝑙 𝑉𝑉 𝑗𝑗 𝑙𝑙 :𝑙𝑙レイヤー、j番目のK,V値 𝐿𝐿:トランスフォーマーレイヤーのインデックス 論文では𝐿𝐿 = 24 レイヤーを持つ GPT-2 を使用 ZeroCap ハクトウワシ
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 LM Language models CLIP-Guided language modelling LM の出力を画像と結びつけるため、以下の2つの目標と関数式(2)を設定 1. 指定された画像との整合 CLIPによってトークンと画像の関連性を評価し、それに応じてモデル (C𝑖𝑖) を調整 2. 言語属性を維持する 目標を元の目標出力、つまり変更前の出力と同様になるように正則化 本論文ではλ=0.2 � 𝑥𝑥𝑖𝑖+1: 調整前のC𝑖𝑖を使用して生成されたトークン分布(図のman出力) 第2項はクロスエントロピーロス(LCE)を用いて、調整したC𝑖𝑖の単語間の確率分 布が元のLMのものに近くなるようにする。 ZeroCap ハクトウワシ C𝑖𝑖調整後 の出力 C𝑖𝑖調整前 の出力
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 CLIP 損失関数 上位 512 個のトークン候補を計算し、残りのトークンの確率をゼロとする 𝑘𝑘 番目の候補トークンの対応する候補文 s𝑖𝑖 𝑘𝑘 = (𝑥𝑥1, ..., 𝑥𝑥𝑖𝑖−1, 𝑥𝑥𝑖𝑖 𝑘𝑘 ) が画像 𝐼𝐼 と照合 𝑘𝑘 番目のトークンの条件付き確率は、下の式(3)で求める DCLIP : ETEXTとEImageのコサイン類似度 ETEXT・EImage:CLIPで計算される埋め込みされたベクトル τc (τc = 0.01 ):は、ターゲット分布のシャープネスを制御するハイパーパラメーター CLIP 損失関数 式(4):LMによって出力された次の トークン 𝑥𝑥𝑖𝑖+1とターゲット分布𝑝𝑝𝑖𝑖のCE CLIPの推論概要図 ZeroCap ハクトウワシ
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 推論 推論時に、勾配降下を実行することにより、式 (2) の問題を最適化 →トークンが生成されるごとにC𝑖𝑖を計算し、最適化していく ※ゼロショット方式のため、学習による重みの更新はしない C𝑖𝑖の更新式(簡略化したもの)を(5)に示す。 学習率α = 0.3 式(2)のこと ZeroCap ハクトウワシ
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 Beam Search Beam Search:枝刈りをしながら探索するヒューリスティック なアルゴリズム 各単語の確率分布の選択はこれを使う ビーム 数:5 バイトレベル(BPE)のトークナイザーは、256 バイトの基本トー クンを使用して、存在するすべての単語を表す[56] 任意の単語を複数のサブワードに分割することもできます。た とえば、単語「zebra」は「zeb」および「ra」としてトークン 化できる → 最終的には文字にまで分割されるので、頻出しない単語や未 知語もカバーする
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 Visual-Semantic Arithmetic ビジュアルセマンティック [22]より、CLIPのマルチモーダル表現が精巧な概念分類を保持しているこ とが示唆 →CLIP の埋め込みを表現できないか? 例) ・2つの画像 I1、 I2 を用意する ・CLIPのエンコーダーを用いてEImage(I1)、 EImage(I2 )で画像をエンコード ・EImage(I1)+EImage(I2 )のように加算(もしくは減算)する ・Eq(3) 内のEImage(𝐼𝐼)の代わりに得られた結果を使用して、生成された文を 出力 → 加算された概念のようなものが”𝑝𝑝“で表現されているのでは? 画像だけでなく、言語側でも同じことができる!
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 実験設定 LMの生成に関して ・同じ単語の繰り返しを防ぐため、最後の4つのタイムステップで生成さ れたトークンの生成確率を1/2にする ・タイムステップ 𝑡𝑡𝑒𝑒から開始して、エンドトークンの確率に係数 𝑓𝑓𝑒𝑒を掛 けることで、生成されるテキストの長さを直接制御するメカニズムも組み 込む 画像キャプションタスク: 𝑓𝑓𝑒𝑒 = 1.04、𝑡𝑡𝑒𝑒 = 3 ビジュアルセマンティック: 𝑓𝑓𝑒𝑒 = 1.06、𝑡𝑡𝑒𝑒 = 1 ビーム数は5,候補トークンは512に設定 実行時間は、単一の Titan X GPU で3 秒で生成 使用データセット:MS-COCO
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験結果 人がアノテーションした文章との比較 BLEU [52]、METEOR [5]、CIDEr [66]、SPICE [2] CLIPScoreRef スコアが大きく低いが、これは他手法がCOCOアノテーションで学習されている →同じ人間グループが学習・テストを書いてるので優位になっている ボキャブラリーの多様性は、他手法と比較して大きくリードしており、テスト データセットのすべてをカバーしている(未知語なし) 教師なしのメトリクスCLIP-Sにおいて高い精度 CLIP-SはCLIPのテキストエンコーダを利用して生成文とのコサイン距離を計算す る意味的関連性を評価する指標
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験結果 • キャプション生成タスク 1枚目 2枚目 3枚目 4枚目 従来 手法 歩道や浴室にあ るバスルーム 水の上にある 船 通常の食事ト レイ バスルーム 提案 手法 屋上にあるバス ルーム 船にあるテキ スト 正しく機内食 と説明 肖像画のある バーのトイレ
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験結果 1枚目 2枚目 3枚目 4枚目 従来 手法 鳥がとまって いる 鏡とシンクの あるバスルー ム グループ ベッドルーム とポスター 提案 手法 アカハヤブサ と固有名詞 メッシュタイ ルパターンの バスルーム 家族 ポスターの内 容に触れる • キャプション生成タスク
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 考察 • 従来手法のキャプションは一般的に同じパ ターンだが、提案手法は斬新な文章を生成し ている • 従来手法(CLIP-VL と VinVL)はCOCOデータ セットを使って調整されているので、テスト 時有利に働く点に注意
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 実験結果 • プロンプトを「Image of a」から「Image of text that say」に変更 • 紙の画像から「ケネディ大統領の死」 • 看板から「スタンフォード大学」
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 実験結果 • 有名人 (トランプなど)、アニメ番組 (シンプソ ンズなど)、都市 (マンハッタンなど)、映画 (アベンジャーズなど) 実世界の知識を必要とするキャプション例
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 実験結果 ビジュアルセマンティック 減算 • 飛行機の似顔絵から飛行機を差し引いた結果、似顔絵イラスト といったキャプションが得られる • また、実物の飛行機と似顔絵イラストを入れると、左の画像と 一致する • オリの中のシマウマ ー シマウマ=監獄 • 沢山のバスケットボール ー バスケットボール = 束 • 夜景ー景色 = 地球の夜
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 実験結果 ビジュアルセマンティック 減算 • 赤いリンゴから青りんごを引くと赤 • 雪のなかのシロクマ ー 砂漠のシロクマ=雪 • スケボーの大会 ー スケボー = イベント • スケボー ー スケボーの大会 = 模試化石ビュー?? → 引かれる側の要素がなくなるので、意味不明な出力になるようです
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 実験結果 ビジュアルセマンティック 加算 • 走っている男性 + 警官の帽子 =警察官が走っている • 男性 + ハンマー = 裁判官 • 電話 + りんご = iPhoneがリリースされた • 木 + カナダ国旗 =Toronto maple(トロントの楓)
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 実験結果 多様な視覚演算の実験(概念の抽出) オバマ大統領- アメリカ国旗=リーダーシップ ドイツ + リーダーシップ = メルケル首相
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 実験結果 多様な視覚演算の実験(概念の抽出) マイクロソフトービル・ゲイツ = CEO マーク・ザッカーバーグ + CEO = Facebook イタリアーピザ=国ー食べ物への方向性? フランスパン + 国ー食べ物 = フランス
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 実験結果 建物→国、国→資本、食品→国、リーダー→国、CEO→会社 など320の関係を定量的に評価するベンチマーク“VR”を提案 →この項目は、多対1であることから、関係性を視覚的にモ デル化する能力と、実際の知識を用いる2つの能力を測定す るために設計 B@1:BLEU-1 R@5:Recall@5 生成された最初の 5 つの単語内の単語の再現率 C-s:意味的関連性を示す CLIP スコア。
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 実験結果 自然言語を使った演算 “夜のイメージ”ー“昼のイメージ”=昼夜の方向を取得 “朝食” + 昼夜の方向ベクトル=夜のディナーシーン “東京のイメージ”ー“日本のイメージ”=首都 “フランス” + 首都 = パリ
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 まとめ 概要 ・CLIPと LM (GPT-2 ) を使用して、 Zero-shotでImage-to- Textタスクを解く自己回帰モデルであるZeroCapを提案 手法 ・CLIPを用いて、言語モデルによって生成されたトークンのキーと 値のペア(𝐶𝐶)を、各推論ステップまでに画像の表現と近くなるよう に調整する 実験結果 ・生成されたキャプションは意味レベルで画像とよく一致し、現実 世界の情報も示していた ・ビジュアルセマンティックを実行可能 ・2 つの画像の違いを言葉で説明する方法と、複数の画像の概念を 組み合わせる方法を示します。どちらも新しい高レベルの認識タス ク