论文阅读 | Smartbrush: Text and shape guided object inpainting with diffusion model

本文介绍了一种新的智能绘画工具Smartbrush,它结合文本和形状引导,改进了扩散模型的Inpainting能力,能更好地保留背景并解决现有方法的背景纹理问题。通过多任务训练策略,Smartbrush在视觉质量和背景保真度上有所提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正值元旦,新年快乐!

Xie, Shaoan, et al. "Smartbrush: Text and shape guided object inpainting with diffusion model."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

效果展示

Smartbrush对于精细的mask,生成内容能更好的与mask形状匹配;对于粗糙的mask,生成内容的背景部分保存得更好(如上图mask区域里的天空与原图保持一致)。

摘要

现存方法的问题:之前的方法如DALLE-2和StableDiffusion,都只支持文本引导,不支持mask的形状引导,生成内容时会改变object周围的背景纹理。

为此,本文提出了一种能同时利用文本和mask形状进行引导生成的方法。具体的,通过使用新的采样策略和训练方式,让模型在生成内容的同时预测物体的mask,能让object外的背景部分保存得更好;同时提出了一种多任务训练策略,联合训练inpaint和文生图任务,能利用更多的数据进行训练。最终结果,从视觉质量、mask控制能力和背景保存度都更好。

背景介绍

基于扩散模型,使用RePaint的方式可以用来做Inpainting任务。但RePaint生成时缺少全局信息,生成质量欠佳。为此,SD-inpainting和GLIDE基于SD模型finetune,使用随机mask和图像caption训练得到Inpainting模型。但这样得到的模型存在文本不对齐的问题,即训练用的图像mask和全图caption之间不匹配,图像capi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值