出典:Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao : Unified Vision-Language Pre-Training for Image Captioning and VQA, The Thirty-Fourth AAAI Conference on Artificial Intelligence, pp13041-13049 (2020) 公開URL:https://aaai.org/ojs/index.php/AAAI/article/view/7005/6859 概要:本論文ではUnified VLPというVision-Languageタスクを解くための統一的なモデルを提案しています。統一的というのは、EncoderとDecoderを一つのTransfomer内で完結させている点、画像キャプションとVQAという性質の異なるタスクを同じモデルで解くことができるという点からきている用語です。さらに本論文では、従来はBERTなどの言語モデルで行われていた事前学習をVision-Languageモデルにも適用し、画像とそのキャプションのペアを事前学習のデータセットとして用いることで、モデルの性能が向上することを示しています。