从零搭建 Stable Diffusion 图片生成模型——Colab 流程(新手也能学会)

目录

从零搭建 Stable Diffusion 文生图 Colab 流程

1. 准备环境(安装必要依赖)

作用:

操作代码:

2. 登录 Hugging Face(获取模型权限)

作用:

操作步骤:

第一次使用时:

操作代码:

3. 加载模型(Stable Diffusion v1.5)

作用:

操作代码:

4. 文生图(输入提示词生成图像)

作用:

操作代码:

注意:

5. (可选)保存图像到本地

作用:

6. 可调节参数(提升控制力)

整体流程结构图

示例 Prompt 提示词推荐

结语


从零搭建 Stable Diffusion 文生图 Colab 流程


1. 准备环境(安装必要依赖)

作用:

Stable Diffusion 依赖 Hugging Face 的 diffusers 库,以及 transformersacceleratesafetensors 等。第一步先装好这些。

操作代码:

# 安装 Hugging Face 的 diffusers 工具包和其他依赖
!pip install diffusers transformers accelerate scipy safetensors --upgrade


2. 登录 Hugging Face(获取模型权限)

作用:

Stable Diffusion 模型发布在 Hugging Face 上。使用时需要登录你的 Hugging Face 账户,以授权加载模型。

操作步骤:

第一次使用时:
  1. https://huggingface.co 注册账号

  2. 打开这个链接生成访问令牌(Access Token):
    https://huggingface.co/settings/tokens
    建议选择“Read”权限即可。

操作代码:

from huggingface_hub import login

# 这里填入你自己的 token(复制粘贴,不用加引号)
login("hf_xxxxxxxx你的Token")


3. 加载模型(Stable Diffusion v1.5)

作用:

我们加载 runwayml/stable-diffusion-v1-5 版本,这是最常用且稳定的模型。

操作代码:

from diffusers import StableDiffusionPipeline
import torch

# 正确方式:不指定 revision,用 default 主分支
pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16,  # 使用 float16,节省显存
    use_safetensors=True        # 推荐启用
).to("cuda")

 


4. 文生图(输入提示词生成图像)

作用:

你只需要输入一句 prompt,模型会根据这句话生成一张图像。

操作代码:

from IPython.display import display

# 霓虹闪烁的动漫风格赛博朋克城市夜晚
prompt = "a cyberpunk city at night with neon lights, anime style"

# guidance_scale 控制“提示词的强度”,越高越接近 prompt
image = pipe(prompt, guidance_scale=7.5).images[0]

# 展示图像
display(image)

 

 

注意:

这里不要使用中文,因为模型根本不支持中文的输入进行推理,如果使用中文,模型大概率会生成一些奇奇怪怪的东西。

下面的同一个意思中英文的不同效果。

 

 


5. (可选)保存图像到本地

作用:

将生成的图像保存为文件,可以下载。

image.save("output.png")

你可以点击左侧文件夹按钮找到 output.png,右键下载。


6. 可调节参数(提升控制力)

参数作用推荐值
prompt输入的描述性文字任意英文句子
guidance_scale提示词强度,越高越受 prompt 影响7~12
num_inference_steps推理步数,越高越清晰,但越慢25~50
height, width图像尺寸(默认512x512)比如 512x768 适合横图

示例(调整步数和尺寸):

image = pipe(prompt, guidance_scale=8.5, num_inference_steps=40, height=512, width=768).images[0]
image.show()


整体流程结构图

📦 安装依赖
  ↓
🔐 Hugging Face 登录认证
  ↓
🧠 加载 Stable Diffusion 模型
  ↓
📝 输入 Prompt 提示词
  ↓
🎨 模型生成图像
  ↓
💾 显示 / 保存结果


示例 Prompt 提示词推荐

你可以输入任意英文描述(中文也行但效果不稳定),以下是一些灵感:

中文想法英文 prompt 示例
赛博朋克风的南京"a cyberpunk night view of Nanjing, neon lights, futuristic"
汉服少女樱花树下自拍"a girl in hanfu taking a selfie under cherry blossom trees, digital painting"
火星上弹吉他的宇航员"an astronaut playing guitar on Mars, cinematic style"


结语

你现在已经完全掌握了从 0 开始在 Colab 上运行 Stable Diffusion 的所有流程了,不再是“照着点按钮”,而是:

  • 知道每一步干啥

  • 知道怎么调参数

  • 可以随心换模型、prompt、画风

### Stable Diffusion 的安装与使用教程 #### 一、简介 Stable Diffusion 是一种基于人工智能技术的图像生成工具,能够根据用户输入的文字描述自动生成相应的图片[^4]。 #### 二、系统配置需求 为了顺利运行 Stable Diffusion,建议拥有较高配置的计算机设备。如果硬件条件有限,则可以选择云端服务作为替代方案,这类服务通常费用低廉甚至免费提供基础功能[^1]。 #### 三、在线平台快速体验 对于希望立即尝试而不愿自行搭建环境的新手来说,可以通过以下几种方式获得便捷访问: - **Dream Studio** - **Replicate** - **Playground AI** - **Google Colab** - **BaseTen** 这些平台上已经预装好了必要的组件,只需按照指引操作即可轻松上手[^2]。 #### 四、本地部署指南 当决定长期稳定地使用此项目时,推荐在个人机器上完成完整的安装流程: ##### (一)前期准备工作 1. 安装 Git 工具以便于后续获取最新版本代码; 2. 设置 Python 运行环境并调整为中国区镜像源加速下载速度; ##### (二)具体实施步骤 1. 下载并解压 Stable Diffusion Web UI 文件包; 2. 将所需模型文件放置指定位置; 3. 执行命令启动应用程序; 4. 浏览器打开链接进入图形化管理面板[^3]。 #### 五、界面概览及基本操作说明 成功开启后会看到两个主要工作区域——`txt2img` 和 `img2img`,分别对应着纯文本驱动绘图以及已有素材基础上再创作两种模式。此外还支持中文显示,方便国内用户的理解和交流。 ```bash # 启动命令示例 python webui.py --listen --port=7860 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WenJGo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值