SlideShare a Scribd company logo
1
北海道大学調和系工学研究室
B4 平田航大
Unified Vision-Language Pre-
Training for Image Captioning and
VQA
論文情報
• タイトル
• Unified Vision-Language Pre-Training for Image
Captioning and VQA
• 著者
• Luowei Zhou, Hamid Palangi, Lei Zhang,
Houdong Hu, Jason J. Corso, Jianfeng Gao
• 学会
• AAAI 2020
2
概要
• Vision-Language タスクにおける統一的なモデルUnified
Vision-Language Pre-trainingモデルを提案
• Understanding(e.g. VQA)とgeneration(e.g. 画像
キャプション)タスクを統一的なモデルで扱える
• EncoderとDecoderでも統一的なTransformerを使用
3
タスクの紹介
• 画像キャプション
画像を説明する文章を生成
する
4
• VQA
画像とそれに関する質問分を
入力とし、答えを返す
引用元:「日本語による画像キャプ
ション自動生成AIを作ったので丁寧
に解説します!」
https://qiita.com/oreyutarover/items/6
eb0e12ba0d169a480df
引用元:"VQA: Visual Question
Answering“(Antol et al. 2015)
背景
• BERT,GPTなどの言語モデルにおいて、pre-trainingがモデル
性能を向上させている
→cross-modalな表現(i.g. 画像ー言語)への応用
5
Fig1より
背景
• これまでの研究では・・・
• EncoderとDecoderで異なるモデルを用いるものが一
般的
• Understanding taskとGeneration taskでモデルが
異なることが一般的
→これらを統一したモデルの提案
6
背景 - 統一的なモデル 7
同じ構造のモデルが用
いられている
関連研究:Transformer
• 提案論文:
• “Attention Is All You Need” (Vaswani et al.,
2017)
•https://papers.nips.cc/paper/7181-attention-is-all-you-need
• Attentionという機構のみを用いて自然言語処理を行う
Encoder-Decoderモデル
8
Transformerの図
(提案論文より)
Encoder Decoder
Transformer
Block
input
output
関連研究-BERT
• 提案論文
• “BERT: Pre-training of Deep Bidirectional
Transformers for Language Understanding”
• https://www.aclweb.org/anthology/N19-1423/
• 双方向Transformerを用いた言語モデルと、自然言語処理タ
スクにおける事前学習の重要性などを示した
• 本論文のモデルのベースとなっている
9
事前学習-Masked Language Model
• 入力の一部を[MASK]トークンに置き換えて、それを予測する
タスク
• My dog is hairy. -> My dog is [MASK].
• [MASK]部以外を利用して[MASK]を予想する
10
モデル - 全体像 11
全体図:Fig2より
encoderdecoder
input
encoderdecoder
・・・
12層
encoderdecoder
モデル – 入出力
• 入力:画像の領域(N個)、単語(T個)の埋め込みベクトル(d
次元) [CLS], [SEP], [STOP]の特殊トークン3つ
• 画像の領域
•𝑅𝑖:i番目の領域の特徴量ベクトル
•𝐶𝑖:i番目の領域のクラス分布
•𝐺𝑖:i番目の領域の座標に関するベクトル
•𝑊は学習すべき重み
• 単語𝑦𝑡
d次元の埋め込みベクトル
• 特殊トークン
•[CLS]:入力の開始 [SEP]:画像と文を分ける [STOP]: 入力の
終了
12
モデル – 入出力
• 本当の入力は前ページのものを合わせた
𝐻0 = [𝑟 𝐶𝐿𝑆 , 𝑟1, 𝑟2, … , 𝑟 𝑁, 𝑦 𝑆𝐸𝑃 , 𝑦1, 𝑦2, … , 𝑦 𝑇, 𝑦 𝑆𝑇𝑂𝑃 ]
• 以下の式でTransformer Blockを計算
𝐻 𝑙 = 𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑚𝑒𝑟(𝐻 𝑙−1)
• 出力:
𝐻 𝐿 = ℎ 𝑟 𝐶𝐿𝑆
, ℎ 𝑟1
, … , ℎ𝑦 𝑆𝐸𝑃 , ℎ𝑦1, … , ℎ𝑦 𝑇, ℎ𝑦 𝑆𝑇𝑂𝑃
13
学習条件の設定
• Bidirectional(双方向)
• ある単語のAttentionを計算するときに後ろの単語も
参照できる
• Seq2seq
• ある単語のAttentionを計算するときに前の単語しか
参照できない
※本モデルでは2つの条件をバッチごとに変えて学習
• 割合をパラメータλで指定
• 事前学習ではλ=0.75で75%がseq2seq
14
各タスクの解き方
• 画像キャプション
1. 画像の領域を切り出し、(1)式でベクトル化
2. 画像と[MASK]をモデルに入力し、[MASK]を予測
3. 画像と最初の単語の予測結果、[MASK]をモデルに入
力し、2つ目の[MASK]を予測
4. これを[STOP]が予測されるまで繰り返す
※λ=1.0に設定
15
各タスクの解き方
• VQA
• 答えの候補となるクラスをあらかじめ定めておき、多
クラス分類として定式化
• [CLS]と[SEP]に対する出力を使い、クラス分類問題
を解く
※λ=0に設定
16
実験と結果 – データセット
• 事前学習用データセット
• Conceptual Captions(CC)
•Web上にある画像とキャプションのペア約3百万件
• 画像キャプション用データセット
• COCO Captions, Flickr30k
• VQA用データセット
• VQA 2.0
17
実験と結果 - 他のモデルとの比較
• 多くの指標においてSOTAを達成
• 特にFlickr30kではCIDErで5.1pt、BLEU@4で2.8ptの上昇
18
Table2 cross-entropyで最適化した場合の各指標
※B@4: BLEU@4, M: METEOR, C: CIDEr, S: SPICEを表し、
すべて大きいほど良いスコア
実験と結果 – 他モデルとの比較
• CIDErに対して最適化した場合も他のモデルを抜いてSOTAを
達成
19
Table3
実験と結果 – 事前学習の効果
• 下流タスクでの性能差から、Unified VLPが他の事前学習モ
デルよりも優れたものであることを示した
20
Table4 事前学習手法の違いによる下流タスクの性能差
実験と結果 – 事前学習の際の初期化
• 事前学習を行う際の重さの初期値についての実験
• ゼロから事前学習をするよりも、他の言語モデルで初期化を
した場合の方が最終的な性能が高くなる傾向がある
21
Table5 事前学習を行う際の初期化
実験と結果 - 画像情報の保持に関する実験
• Faster R-CNNの出力
• 領域の特徴量ベクトル、領域のラベル
•ラベルを予測するpretext taskを追加する[1]
•ラベル分布を入力としてとらえる(本手法)
22
[1] Tan, H., and Bansal, M. 2019. Lxmert: Learning crossmodality encoder
representations from transformers. arXiv preprint arXiv:1908.07490.
実験と結果 – 出力例と定性的評価
• Unified VLPではumbrellaを認識できている
• テキストのみから特徴量を抽出するより、画像との関係性をう
まくとらえられているのではないか
23
Figure3から抜粋
まとめ
• Vision-Languageタスクに対してUnified VLPというモデルを提
案
• 単一のTransformerを用いているという点
• 画像キャプション、VQAを同一のモデルで扱える点
• 画像 - テキスト間の特徴量を事前学習で獲得し、モデルの
性能を向上させることに成功した
24
Ad

More Related Content

What's hot (11)

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
 
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
harmonylab
 
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
Okamoto Laboratory, The University of Electro-Communications
 
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
harmonylab
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
 
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
Yusuke Uchida
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
cvpaper. challenge
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
Deep Learning JP
 
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
 
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
harmonylab
 
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
harmonylab
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
 
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
Yusuke Uchida
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
cvpaper. challenge
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
Deep Learning JP
 

Similar to Unified Vision-Language Pre-Training for Image Captioning and VQA (20)

Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Yoshitaka Ushiku
 
論文紹介:A Survey of Vision-Language Pre-Trained Models
論文紹介:A Survey of Vision-Language Pre-Trained Models論文紹介:A Survey of Vision-Language Pre-Trained Models
論文紹介:A Survey of Vision-Language Pre-Trained Models
Toru Tamaki
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
 
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
Toru Tamaki
 
勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成
ssuser331f24
 
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
Deep Learning JP
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Yoshitaka Ushiku
 
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
Toru Tamaki
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
Kento Doi
 
An example of how to make the accessibility ready theme
An example of how to make the accessibility ready themeAn example of how to make the accessibility ready theme
An example of how to make the accessibility ready theme
Takeshi Kashihara
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
 
電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理
Takuya Negishi
 
設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】
設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】
設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】
Tomoharu ASAMI
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
Atsushi Hashimoto
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
 
Offshore Agile Development in XP
Offshore Agile Development in XPOffshore Agile Development in XP
Offshore Agile Development in XP
Kenji Hiranabe
 
Android ReactNative UITesting
Android ReactNative UITestingAndroid ReactNative UITesting
Android ReactNative UITesting
Vishal Banthia
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Hironori Washizaki
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Yoshitaka Ushiku
 
論文紹介:A Survey of Vision-Language Pre-Trained Models
論文紹介:A Survey of Vision-Language Pre-Trained Models論文紹介:A Survey of Vision-Language Pre-Trained Models
論文紹介:A Survey of Vision-Language Pre-Trained Models
Toru Tamaki
 
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
Toru Tamaki
 
勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成
ssuser331f24
 
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
Deep Learning JP
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Yoshitaka Ushiku
 
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
Toru Tamaki
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
Kento Doi
 
An example of how to make the accessibility ready theme
An example of how to make the accessibility ready themeAn example of how to make the accessibility ready theme
An example of how to make the accessibility ready theme
Takeshi Kashihara
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
 
電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理
Takuya Negishi
 
設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】
設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】
設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】
Tomoharu ASAMI
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
Atsushi Hashimoto
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
 
Offshore Agile Development in XP
Offshore Agile Development in XPOffshore Agile Development in XP
Offshore Agile Development in XP
Kenji Hiranabe
 
Android ReactNative UITesting
Android ReactNative UITestingAndroid ReactNative UITesting
Android ReactNative UITesting
Vishal Banthia
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Hironori Washizaki
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
Ad

More from harmonylab (20)

【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究 【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
harmonylab
 
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
 
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
harmonylab
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
harmonylab
 
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究 【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
harmonylab
 
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
harmonylab
 
【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024【DLゼミ】Generative Image Dynamics, CVPR2024
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
harmonylab
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
Ad

Unified Vision-Language Pre-Training for Image Captioning and VQA

Editor's Notes

  • #3: 実装を掲載しておく
  • #18: CCの質について
  • #19: 各スコアはパーセント記法ではないので注意
  • #24: 小さい