
语音
文章平均质量分 92
seetimee
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
asr综述:入门论文
通过包括 SFT → 上下文 SFT → RL 的阶段性训练流程,我们得到了 Seed-ASR (CN) 模型。在上述综合评估集上,我们观察到 Seed-ASR (CN) 模型在不同训练阶段具备了某些能力的提升。这里,我们提供了每个阶段效果的详细消融研究,结果如表 9 所示。首先,引入 RL 阶段带来了大多数评估集的改进,如多领域、多源视频、多方言、难案例和代码切换。在口音测试集上的轻微退化可能是由于训练数据比例的问题。原创 2025-07-02 18:46:48 · 548 阅读 · 0 评论 -
阿里通义音频生成大模型 FunAudioLLM 开源!
人类对自身的研究和模仿由来已久,在我国2000多年前的《列子·汤问》里就描述了有能工巧匠制作出会说话会舞动的类人机器人的故事。声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界至关重要的环节。近日,阿里通义实验室发布并开源了语音大模型项目,旨在深化人类与大型语言模型(LLMs)之间的自然语音交互体验。这一框架的核心是两个创新模型:SenseVoice和CosyVoice。原创 2024-07-06 23:20:49 · 3892 阅读 · 0 评论