出典:Tewel, Yoad, et al. "ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
公開URL:https://openaccess.thecvf.com/content/CVPR2022/papers/Tewel_ZeroCap_Zero-Shot_Image-to-Text_Generation_for_Visual-Semantic_Arithmetic_CVPR_2022_paper.pdf
概要:CLIPと LM (GPT-2 ) を使用して、 Zero-shotでImage-to-Textタスクを解く自己回帰モデルであるZeroCapを提案している。生成されたキャプションは意味レベルで画像とよく一致し、現実世界の情報も示していた。2 つの画像の違いを言葉で説明する方法と、複数の画像の概念を組み合わせる方法を示します。どちらも新しい高レベルの認識タスクとなっている