CVPR 2024 | 长时舞蹈生成:数秒钟可生成极长的3D舞蹈

1bac49ddff114067881a0be351781a7a.png

 

论文题目:

Transparent Image Layer Diffusion using Latent Transparency
论文链接: 

https://arxiv.org/abs/2402.17113
代码仓库: GitHub - layerdiffusion/LayerDiffuse: Transparent Image Layer Diffusion using Latent Transparency

目前,视觉扩散生成模型(如Stable Diffusion等)在常规图像生成任务上获得了非常好的效果,但是在内容制作的专业领域,例如对图像进行透明分层制作,现有的方法仍然缺乏这种功能。本文介绍一篇来自斯坦福大学的工作,本文提出了一种名为LayerDiffuse的新型扩散方法,LayerDiffuse允许我们大规模预训练扩散模型来生成专业的透明图层。

本文探索了一种“latent transparency”(隐透明度)的概念,通过将alpha通道的透明度编码到预训练扩散模型的隐空间流形中,并将对透明度的调节设置为对隐空间流形的偏移量。LayerDiffuse仅对基础预训练隐空间的分布进行了微小的修改,这样可以保留预训练扩散隐空间的图像生成质量。作者表示,LayerDiffuse可以应用在多种不同的开源图像生成模型中,来实现图像前景/背景条件层生成、结构引导生成等复杂的功能

此外,本文的实验结果也表明,相比普通做法(先生成图像再抠图),LayerDiffuse直接生成的透明图层图像在大多数情况下(97%)更受用户欢迎。并且作者还将LayerDiffuse与专业的商业透明资源网站Adobe Stock相比,本文方法生成的图像也具有一定的竞争力。

01. 引言

目前,绝大多数图像内容编辑软件和工作流程都基于图层进行设计,但现有的图像生成大模型仍然不具备这方面的能力,这一现象

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值