最近,语音克隆领域精彩迭出!
前段时间刚分享过升级版 FishSpeech:
17k star!开源最快语音克隆方案,FishSpeech 焕新升级,本地部署实测
最近看到阿里开源的 CosyVoice 又发布了重大更新。
今日分享,将介绍 CosyVoice 2.0,并带大家本地部署体验,为本地 TTS 选型提供参考。
1. CosyVoice 简介
项目简介:https://funaudiollm.github.io/cosyvoice2/
与已有 TTS 方案相比,CosyVoice 在多语言语音生成、零样本语音生成、跨语言语音生成、富文本和自然语言细粒度控制方面,表现出色。可见之前的分享:
CosyVoice 实测,阿里开源语音合成模型,3s极速语音克隆
相比旧版,CosyVoice 2.0 有哪些亮点?
- 离线和流式一体化建模:成功实现双向流式语音合成,目前主流方案(CosyVoice,F5-TTS,MaskGCT,GPT-SoViTs等)均不支持流式,FishSpeech 1.5 除外。
- 多语言支持:中文、英文、日语、韩语等,以及多种中国方言(粤语、四川话、上海话、天津话、武汉话等)
- 跨语言支持:支持跨语言的零样本语音克隆。
- 超低延迟:接收5个文字即可合成首包音频,延迟低至 150 毫秒;
- 超高精度:在Seed-TTS评估集的硬测试集上取得最低的字符错误率。
- 音色一致性:确保零样本和跨语言语音合成的可靠语音一致性。
- 韵律和音质:在韵律、音质和情感对齐方面显著增强,MOS评分从5.4提高到5.53,接近商业化TTS水平。
- 可控音频生成:支持更精细的情感控制和方言口音调整,可模仿机器人、小猪佩奇的风格讲话。
本次更新,预训练模型同样开源。
下面我们实操本地部署,看看效果如何?
2. 本地部署
项目地址:https://github.com/FunAudioLLM/CosyVoice
首先,下载项目仓库,安装环境依赖。
git clone https:/