Person Image Synthesis via Denoising Diffusion Model (PIDM) 使用教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00069/article/details/147116108

Person Image Synthesis via Denoising Diffusion Model (PIDM) 使用教程

PIDM Person Image Synthesis via Denoising Diffusion Model (CVPR 2023) 项目地址: https://gitcode.com/gh_mirrors/pi/PIDM

1. 项目介绍

PIDM 是一个基于去噪扩散模型的开源项目，用于实现人物图像合成。该项目由ankanbhunia开发，并在CVPR 2023上发表。PIDM通过使用先进的去噪扩散模型，能够根据给定的姿势和源图像生成高质量的人物图像。

2. 项目快速启动

环境准备

安装 Conda，并创建一个名为 PIDM 的虚拟环境：
```
conda create -n PIDM python=3.7
conda activate PIDM
```

安装所需的依赖库：

conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
pip install -r requirements.txt

数据准备

下载 DeepFashion 数据集的 img_highres.zip 文件，解压后重命名文件夹为 img 并放置在 ./dataset/deepfashion 目录下。
下载训练和测试图像对以及关键点姿势文件，解压后放置在 ./dataset/deepfashion 目录下。

运行以下代码将图像保存为 lmdb 数据集格式：

python data/prepare_data.py --root ./dataset/deepfashion --out ./dataset/deepfashion

模型训练

使用以下命令进行模型训练：

python -m torch.distributed.launch --nproc_per_node=8 --master_port 48949 train.py --dataset_path "./dataset/deepfashion" --batch_size 8 --exp_name "pidm_deepfashion"

3. 应用案例和最佳实践

人像生成

下载预训练模型并放置在 checkpoints 文件夹中。

使用以下代码进行姿态控制的人像生成：

from predict import Predictor
obj = Predictor()
obj.predict_pose(image=<PATH_OF_SOURCE_IMAGE>, sample_algorithm='ddim', num_poses=4, nsteps=50)

使用以下代码进行外观控制的人像生成：

src = <PATH_OF_SOURCE_IMAGE>
ref_img = <PATH_OF_REF_IMAGE>
ref_mask = <PATH_OF_REF_MASK>
ref_pose = <PATH_OF_REF_POSE>
obj.predict_appearance(image=src, ref_img=ref_img, ref_mask=ref_mask, ref_pose=ref_pose, sample_algorithm='ddim', nsteps=50)