High-Resolution Image Synthesis with Latent Diffusion Models
论文相关信息:
文章基本结构:
High-Resolution Image Synthesis with Latent Diffusion Models Abstract
1.Introduction Democratizing High-Resolution Image Synthesis
Departure to Latent Space
2.Related Work
Generative Models for Image Synthesis
Diffusion Probabilistic Models (DM)
Two-Stage Image Synthesis
3.Method
3.1Perceptual Image Compression
3.2Latent Diffusion Models
3.3Conditioning Mechanisms
4.Experiments
4.1On Perceptual Compression Tradeoffs
4.2Image Generation with Latent Diffusion
4.3Conditional Latent Diffusion
4.4Super-Resolution with Latent Diffusion
4.5Inpainting with Latent Diffusion
5.Conclusion
References
文章背景:
稳定扩散生成模型(Stable Diffusion)是一种潜在的文本到图像扩散模型,能够在给定任何文本输入的情况下生成照片般逼真的图像 Stable Diffusion 是基于latent-diffusion 并与 Stability AI and Runway合作实现的;本文是Stable Diffusion的基础论文。
需要先了解的概念
扩散模型如何应用在图像中(Diffusion Models) 扩散模型包括两个过程:前向过程(forward process)和反向过程(reverse process), 其中前向过程又称为扩散过程(diffusion process)。 扩散过程是指的对数据逐渐增加高斯噪音直至数据变成随机噪音的过程。
什么是 latent-diffusion模型? diffusion 与 latent-diffusion的区别,可以理解为 diffusion直接在原图进行图片的去噪处理,是基于像素空间的,而 latend-diffusion 是图像经过VAE编码器压缩的图像,进行diffusion处理,然后再通过解码器,对压缩后的latent 编码还原为图像。
VAE 自编码器是一类相似的模型,它们通过编码器Encoder将输入数据映射到低维的潜在表示空间,然后再通过解码器Decoder将