StyleTalk: 一键生成可控说话风格的动态人头
styletalk 项目地址: https://gitcode.com/gh_mirrors/st/styletalk
1. 项目介绍
StyleTalk 是一个基于深度学习的项目,能够根据指定的风格参考视频,生成具有特定说话风格的动态人头视频。该技术可在虚拟现实、动画制作以及交互式媒体等领域有广泛的应用。
2. 项目快速启动
环境准备
在开始之前,请确保您的系统已安装以下环境:
- Python 3.7.0
- Conda
- CUDA 11.1
- GPU RTX 3090(推荐)
克隆仓库
首先,从GitHub上克隆StyleTalk项目:
git clone https://github.com/FuxiVirtualHuman/styletalk.git
cd styletalk
安装依赖
接下来,创建一个虚拟环境并安装所需的Python包:
conda create -n styletalk python=3.7.0
conda activate styletalk
pip install -r requirements.txt
安装PyTorch及其相关依赖:
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=11.1 -c pytorch -c conda-forge
最后,更新FFmpeg:
conda update ffmpeg
运行示例
下载预训练的模型权重,并放置在项目中的checkpoints
文件夹里。然后运行以下命令来生成演示视频:
python inference_for_demo.py \
--audio_path samples/source_video/phoneme/reagan_clip1_seq.json \
--style_clip_path samples/style_clips/3DMM/happyenglish_clip1.mat \
--pose_path samples/source_video/3DMM/reagan_clip1.mat \
--src_img_path samples/source_video/image/andrew_clip_1.png \
--wav_path samples/source_video/wav/reagan_clip1.wav \
--output_path demo.mp4
3. 应用案例和最佳实践
- 风格迁移:使用不同的风格视频作为参考,生成具有相应风格的说话人头。
- 语音驱动:通过语音数据驱动3D人脸模型,实现自然的说话动画。
4. 典型生态项目
- AVCT:用于提取音素标签。
- PIRenderer:用于提取3DMM参数。
- Deep3DFaceRecon_pytorch:用于人脸重建。
- Speech Drives Templates:基于语音驱动的模板生成。
请根据实际需求调整项目参数和配置,以获得最佳效果。
styletalk 项目地址: https://gitcode.com/gh_mirrors/st/styletalk
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考