基于so-vits-svc的开源项目教程

基于so-vits-svc的开源项目教程

so-vits-svc 基于vits与softvc的歌声音色转换模型 so-vits-svc 项目地址: https://gitcode.com/gh_mirrors/sovit/so-vits-svc

1. 项目介绍

so-vits-svc 是一个基于 vits 和 softvc 的歌声音色转换模型。该模型可以通过 SoftVC 内容编码器提取源音频的语音特征,并与 F0 同时输入 VITS 替换原本的文本输入,从而达到歌声转换的效果。此外,项目还采用了 NSF HiFiGAN 声码器来解决断音问题。

2. 项目快速启动

以下是快速启动项目的步骤:

环境准备

确保已经安装了 Python 和 pip。项目依赖的 Python 库可以在 requirements.txt 文件中找到。

pip install -r requirements.txt

数据准备

将数据集放入 dataset_raw 目录,数据集的结构应为:

dataset_raw
├───speaker0
│   ├───xxx1-xxx1.wav
│   ├───...
│   └───Lxx-0xx8.wav
└───speaker1
├───xx2-0xxx2.wav
├───...
└───xxx7-xxx007.wav

数据预处理

执行以下命令对数据进行预处理:

python resample.py
python preprocess_flist_config.py
python preprocess_hubert_f0.py

模型训练

使用以下命令开始训练模型:

python train.py -c configs/config.json -m 32k

模型推理

将待转换的音频放入 raw 文件夹,然后执行以下命令进行推理:

python inference_main.py

确保在 inference_main.py 中正确设置了 model_pathclean_namestransspk_list 等参数。

3. 应用案例和最佳实践

  • 数据集准备:确保使用的数据集已经获得了合法授权,避免使用未经授权的数据集进行训练。
  • 模型训练:针对不同说话人的模型,建议训练单说话人模型以获得更接近目标音色的效果。
  • 模型推理:在推理时,注意调整音频的变调半音数量以及合成的说话人名称。

4. 典型生态项目

目前,so-vits-svc 社区维护了一个相关仓库 so-vits-svc,用于接手维护 sovits 项目。此外,还有 SoftVitsResearch 仓库,用于开发一些更复杂的功能,如面向 Onnx 端的 MoeSS 等。开发者可以参考这些项目以获取更多关于 so-vits-svc 的信息和资源。

so-vits-svc 基于vits与softvc的歌声音色转换模型 so-vits-svc 项目地址: https://gitcode.com/gh_mirrors/sovit/so-vits-svc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强懿方

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值