【有手就行】使用你自己的声音做语音合成，CPU都能跑,亲测有效-CSDN博客

本文链接：https://blog.csdn.net/class4715/article/details/139161432

此文介绍在百度飞桨上一个公开的案例，亲测有效。

厌倦了前篇一律的TTS音色了吗？打开短视频听来听去就是那几个声音，快来试试使用你自己的声音来做语音合成吧！本教程非常简单，只需要你能够上传自己的音频数据就可以(建议10句以上，少于5句第一步会报错，句子越多，效果越好)，剩下的就是等代码运行结束即可，一路运行到底！！选择CPU就行，推荐GPU32G或以上的环境运行！

1. 效果展示：

Speaker	数据量级	原始音频	微调效果
发音人A	12句
发音人B	12句

2. 使用说明

进入环境时，一定要选择 32G或以上的GPU环境运行，CPU环境无法运行

萌新玩家：如果你从来没有学习过编程，也不知道什么时深度学习，欢迎使用可视化界面进行操作。只需要准备好音频数据以后，按照网页说明一直向下点击运行即可。在【第三部分：安装试验所需环境】结束后，进入【第四部分：网页应用微调训练】
高端玩家：如果你有一定的Python基础并了解如何进行深度学习的训练，调参与模型微调，在【第三部分：安装试验所需环境】结束后，进入【第五部分：代码块微调训练】。

安装试验所需环境

执行下面这行代码块,安装全部所需实验环境。

无论什么时候，先等安装环境这行执行完毕！每一次重新打开项目的时候也是，重新把这行执行完毕！！！不然后面会有各种各样的报错

等这行出现。

In [ ]

# 安装实验所需环境
!bash env.sh
!pip install typeguard==2.13 --user

4. 网页应用微调训练

在左侧找到文件 untitled.streamlit.py ，双击文件

进入网页后，参照网页应用引导，上传文件 -> 标注数据 -> 微调模型 -> 合成文本

4.1 如何上传数据

4.2 检查并标注数据

4.3 微调模型

4.4 合成文本

4.5 想要跑新的实验

5. 代码块微调

5.1. 如何上传数据：

上传数据说明：对于语音合成任务，对数据是有一定要求的，尽可能上传干净的人声数据，比如像示例中的人声数据，在安静环境下录制，录制设备无论是手机，电脑，还是别的设备都可以，注意一定要控制噪音，或者提前使用音频剪辑软件进行降噪。

音频不要太长，也不要太短，建议2s~10s之间

音频尽量是干净人声，不要有BGM，不要有比较大的杂音，不要有一些奇奇怪怪的声效，比如回