stable diffusion中的UNet2DConditionModel代码解读

Qiming_v

已于 2025-01-22 17:20:15 修改

阅读量4.8k

点赞数 45

CC 4.0 BY-SA版权

分类专栏： Diffusers 文章标签： stable diffusion

于 2024-07-25 22:32:16 首次发布

本文链接：https://blog.csdn.net/zhilaizhiwang/article/details/140683649

UNet2DConditionModel总体结构
在这里插入图片描述

stable diffusion 运行unet部分的代码。

noise_pred = self.unet(
    sample=latent_model_input,  #(2,4,64,64) 生成的latent
    timestep=t,  #时刻t
    encoder_hidden_states=prompt_embeds, #(2,77,768) #输入的prompt和negative prompt 生成的embedding
    timestep_cond=timestep_cond,#默认空
    cross_attention_kwargs=self.cross_attention_kwargs, #默认空
    added_cond_kwargs=added_cond_kwargs, #默认空
    return_dict=False,
)[0]

1.time

get_time_embed使用了sinusoidal timestep embeddings，
time_embedding 使用了两个线性层和激活层进行映射，将320转换到1280。
如果还有class_labels，added_cond_kwargs等参数，也转换为embedding，并且相加。

t_emb = self.get_time_embed(sample=sample, timestep=timestep)  #(2,320)
emb = self.time_embedding(t_emb, timestep_cond)  #(2,1280)

2.pre-process

卷积转换，输入latent从(2,4,64,64) 到(2,320,64,64)

sample = self.conv_in(sample)  #(2,320,64,64)
self.conv_in = nn.Conv2d(
            in_channels, block_out_channels[0], kernel_size=conv_in_kernel, padding=conv_in_padding
        )

3.down

down_block 由三个CrossAttnDownBlock2D和一个DownBlock2D组成。输入包括：

hidden_states：latent
temb：时刻t的embdedding
encoder_hidden_states：prompt和negative prompt的embedding

网络结构

CrossAttnDownBlock2D( 
    ResnetBlock2D

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Qiming_v

关注关注

45
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

stable diffusion中的UNet结构，中使用 CLIP 的 ViT-L/14 的文本编码器），用于将用户输入的 Prompt 文本转化成 text embedding

强化学习曾小健

06-05

2541

文本编码器（在 Stable DiffusioViT-L/14这三个部分是相互独立的，其中最重要的是 UNET 结构。UNET 是从噪音中生成图像的主要组件，在预测过程中，通过反复调用 UNET，将 UNET 预测输出的从原有的噪声中去除，得到逐步去噪后的图像表示。Stable Diffusion Model 的UNET 包含约 860M的参数，以 float32 的精度编码大概需要3.4G 的存储空间。

详细解读ControlNet Stable Diffusion代码

沉迷单车的追风少年

06-27

3064

ControlNet的原理部分可以看我之前写的博客《Image-to-Image任务的终结者：详解ControlNet原理与代码》，这篇博客主要讲解一下diffusers版本的ControlNet代码，从代码中洞悉原理，加深理解。

参与评论您还未登录，请先登录后发表或查看评论

stable diffusion 中使用的 UNet 2D Condition Model 结构解析（diffusers库）

m0_71746299的博客

09-04

3428

（UNet2DConditionModel 是一个条件2D UNet模型，它接受一个有噪声的样本、条件状态和一个时间步长并返回样本形状的输出。：输入输出的size：输入的通道数：输出的通道数：使用的下采样块元组，默认为(“CrossAttnDownBlock2D”, “CrossAttnDownBlock2D”, “CrossAttnDownBlock2D”, “DownBlock2D”)

【Stable Diffusion】图解 Stable Diffusion

qq_40205510的博客

04-29

我希望这能让你对Stable Diffusion的工作原理有一个初步的直观理解。还有许多其他概念涉及其中，但我相信一旦你熟悉了上述基本构建块，理解这些概念就会更容易。

Stable_diffusion 2.1 源码详解——Unet部分

qq_44815135的博客

09-05

3588

图中红框是源码中emb的生成的地方，emb是Unet中Resblock的输入，首先timesteps的初始化形状为（2，），经过timestep_embedding后生成timestep对应的embedding，形状为（2，320），在经过self.time_embed后，变成形状为（2，320）的输入。最后通过proj_out输出。每一次内循环结构的模块现在看看每一次内循环的实现，我们一边看下面的图一边对应代码，每一次内循环对应的是蓝框里的内容，每一次外循环对应的是红框里的内容。

Stable Diffusion UNet

Funnyman_Ming的博客

01-10

212

UNet是sd的核心模块，值得注意的是UNet预测的是噪声，整个生成过程就是一个去噪的过程。

Stable Diffusion原理详解（附代码实现）

白帽阿叁的博客

02-05

5376

今天我们以GAN开始，介绍了AI绘画领域的一些模型，并把Stable Diffusion作为今天的主角，详解介绍了Stable Diffusion的实现原理。我们还使用Diffusers模块实现了Stable Diffusion生成图像的代码。在Stable Diffusion中，还有诸如LoRA、Controlnet等相关技术，在本文没有详细提到。而这些东西在AI绘画中却非常重要，也让AI绘画可以应用在更多领域。

Stable Diffusion中的UNet是什么？

聚梦小课堂

02-28

2098

首先，U-Net的卷积神经网络架构，最早它被用于生物医学图像分割任务。U-Net由Olaf Ronneberger, Philipp Fischer, 和 Thomas Brox在德国弗莱堡大学的计算机科学系和BIOSS生物信号研究中心开发。并不是为了图像生成而专门出现的一种技术。

Stable Diffusion原理

yang_daxia的博客

06-05

1339

目前常采用的定量指标是FID（Fréchet inception distance）和CLIP score，其中FID可以衡量生成图像的逼真度（image fidelity），而CLIP score评测的是生成的图像与输入文本的一致性，其中FID越低越好，而CLIP score是越大越好。训练条件扩散模型时，往往会采用Classifier-Free Guidance（这里简称为CFG），同时训练一个无条件的扩散模型（以一定的比例是text为‘’），然后将两者加权，可以改善最终的生成质量。

stable diffusion文生图代码解读

Qiming的博客

07-24

1398

stable diffusion 文生图代码解读

Diffusion 和Stable Diffusion的数学和工作原理详细解释,UNet结构的解释

vivi_cin的博客

11-23

984

转载：

天才程序员周弈帆 | Stable Diffusion 解读（四）：Diffusers实现源码解读

csdn_xmj的博客

06-25

3361

Diffusers是由Hugging Face维护的一套Diffusion框架。这个库的代码被封装进了一个Python模块里，我们可以在安装了Diffusers的Python环境中用import diffusers随时调用该库。相比之下，Diffusers的代码架构更加清楚，且各类Stable Diffusion的新技术都会及时集成进Diffusers库中。

AI绘图Stable Diffusion中关键技术：U-Net的应用

算法channel

03-13

1127

你好，我是郭震引言在人工智能和深度学习的迅猛发展下，图像生成技术已经取得了令人瞩目的进展。特别是，Stable Diffusion模型以其文本到图像的生成能力吸引了广泛关注。本文将深入探讨Stable Diffusion中一个关键技术——U-Net架构的应用，揭示它如何在生成细节丰富且与文本描述紧密相连的图像中发挥核心作用。U-Net架构概述U-Net最初设计用于医学图像分割，其特点是一种对称的编...

【StableDiffusion】StableDiffusion 扩散模型的原理、UNet 结构解析、Encoder、CLIP Encoder -＞ Prompt Embedding（概览）

励志成为会前后端、运维、云服务、嵌入式开发、AI和自动化技术的创业小老板！

06-13

4337

其实，所谓的“点”，是从 572 * 572 * 1 变成了 32 * 32 * 1024，只是变小了，升维了而已经过卷积之后，才会变成高维的小图像，而不是一开始就是高维在图中，最开始的 Z 是一个格式为 572 \times 572 \times 1 的张量。这意味着 Z 是一个具有单通道（channel）的二维噪声图像。尽管它看起来是一个二维结构，但在扩散模型的上下文中，它仍然可以被理解为在一个高维空间中的点。高维空间的定义在机器学习和深度学习的上下文中，高维空间并不一定仅仅指向量的维数。

diffusers中DDPMScheduler/AutoencoderKL/UNet2DConditionModel/CLIPTextModel代码详解

liguandong

09-19

3505

xt = pred_prev_sample，x0 = pred_original_sample，xt这个式子化简一下就是下面预测结果。上图可见，unet是epsθ是unet。noise和预测出来的noise做个mse loss。扩散模型的训练时比较简单的。

【stable diffusion模型】深入了解Stable Diffusion模型架构和核心组件（CLIP/Unet/VAE）_stable diffusion结构

Python栈_基的博客

03-21

1455

Stable Diffusion 是一种基于扩散技术的深度学习文本转图像模型，利用潜在扩散模型（Latent Diffusion Model，LDM）来生成高质量的图像。它主要用于生成以文字描述为条件的详细图像，但也可应用于其他任务，如 inpainting（图像修复）、outpainting（图像扩展）以及根据文字提示词生成图像到图像（image-to-image）的转换。

Stable Diffusion文生图技术详解：从零基础到掌握CLIP模型、Unet训练和采样器迭代

专注于全栈开发领域

04-07

6387

Stable Diffusion 技术是 Diffusion 模型的改进版本，它通过引入潜在向量空间（Latent Vector Space）来解决传统 Diffusion 模型在速度和效率上的瓶颈。这项技术不仅可以专门用于文本生成图像（Text-to-Image）任务，还可以广泛应用于图像生成图像（Image-to-Image）、特定角色生成、图像超分辨率（Super-Resolution）以及图像上色等多个计算机视觉领域。

【stable diffusion模型】深入了解Stable Diffusion模型架构和核心组件（CLIP/Unet/VAE）

Python栈_基的博客

12-11

852

stable diffusion unet 结构