正值元旦,新年快乐!
Xie, Shaoan, et al. "Smartbrush: Text and shape guided object inpainting with diffusion model."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
效果展示
Smartbrush对于精细的mask,生成内容能更好的与mask形状匹配;对于粗糙的mask,生成内容的背景部分保存得更好(如上图mask区域里的天空与原图保持一致)。
摘要
现存方法的问题:之前的方法如DALLE-2和StableDiffusion,都只支持文本引导,不支持mask的形状引导,生成内容时会改变object周围的背景纹理。
为此,本文提出了一种能同时利用文本和mask形状进行引导生成的方法。具体的,通过使用新的采样策略和训练方式,让模型在生成内容的同时预测物体的mask,能让object外的背景部分保存得更好;同时提出了一种多任务训练策略,联合训练inpaint和文生图任务,能利用更多的数据进行训练。最终结果,从视觉质量、mask控制能力和背景保存度都更好。
背景介绍
基于扩散模型,使用RePaint的方式可以用来做Inpainting任务。但RePaint生成时缺少全局信息,生成质量欠佳。为此,SD-inpainting和GLIDE基于SD模型finetune,使用随机mask和图像caption训练得到Inpainting模型。但这样得到的模型存在文本不对齐的问题,即训练用的图像mask和全图caption之间不匹配,图像capi