阿里开源TTS CosyVoice 再升级！语音克隆玩出新花样，支持流式输出，本地部署实测

最新推荐文章于 2025-07-07 17:11:11 发布

AI码上来

最新推荐文章于 2025-07-07 17:11:11 发布

阅读量1.2w

点赞数 28

CC 4.0 BY-SA版权

分类专栏： AI实战文章标签：人工智能音频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010522887/article/details/144899524

最近，语音克隆领域精彩迭出！

前段时间刚分享过升级版 FishSpeech：

17k star！开源最快语音克隆方案，FishSpeech 焕新升级，本地部署实测

最近看到阿里开源的 CosyVoice 又发布了重大更新。

今日分享，将介绍 CosyVoice 2.0，并带大家本地部署体验，为本地 TTS 选型提供参考。

1. CosyVoice 简介

项目简介：https://funaudiollm.github.io/cosyvoice2/

与已有 TTS 方案相比，CosyVoice 在多语言语音生成、零样本语音生成、跨语言语音生成、富文本和自然语言细粒度控制方面，表现出色。可见之前的分享：

CosyVoice 实测，阿里开源语音合成模型，3s极速语音克隆

相比旧版，CosyVoice 2.0 有哪些亮点？

离线和流式一体化建模：成功实现双向流式语音合成，目前主流方案(CosyVoice，F5-TTS，MaskGCT，GPT-SoViTs等)均不支持流式，FishSpeech 1.5 除外。

多语言支持：中文、英文、日语、韩语等，以及多种中国方言（粤语、四川话、上海话、天津话、武汉话等）
跨语言支持：支持跨语言的零样本语音克隆。
超低延迟：接收5个文字即可合成首包音频，延迟低至 150 毫秒；
超高精度：在Seed-TTS评估集的硬测试集上取得最低的字符错误率。
音色一致性：确保零样本和跨语言语音合成的可靠语音一致性。
韵律和音质：在韵律、音质和情感对齐方面显著增强，MOS评分从5.4提高到5.53，接近商业化TTS水平。
可控音频生成：支持更精细的情感控制和方言口音调整，可模仿机器人、小猪佩奇的风格讲话。

本次更新，预训练模型同样开源。

下面我们实操本地部署，看看效果如何？

2. 本地部署

项目地址：https://github.com/FunAudioLLM/CosyVoice

首先，下载项目仓库，安装环境依赖。

git clone https:/

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。