基于tensorflow和deepspeech的中文语音识别模型，训练+部署

声纳咸鱼の声学实验室

于 2021-01-12 18:12:22 发布

阅读量9.5k

点赞数 19

CC 4.0 BY-SA版权

分类专栏： ASR | 深度语音文章标签： deepspeech tensorflow beam search n-gram 语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30262201/article/details/103345947

ASR | 深度语音专栏收录该内容

32 篇文章 ¥49.90 ¥99.00

订阅专栏

本文介绍了将deepspeech 2的theano后端替换为tensorflow，并结合mozilla的beam search和n-gram解码模块，提高中文语音识别的准确性。通过调整模型结构、忽略卷积层无效输出、冻结BN层等措施，实现与科大讯飞相当的识别效果，尤其在特定领域表现优秀。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

将百度DeepSpeech的keras后端由theano改为tensorflow，整合mozilla解码模块进行中文语音识别模型部署，以下称deepspeech-enhance模型。

工业级中文语音识别系统，电子书，点我

文章目录

- 项目背景
一、和百度deepspeech 2 的不同点
二、测试结果
- 1.开源数据
- 2.垂直领域效果
三、deepspeech 环境搭建
四、训练调参经验
五、失败的尝试
贡献者名单

项目背景

这是我调整了整整一年后落地的项目，效果能和科大讯飞媲美，不如讯飞的点是识别结果中没有标点符号，在特定领域准确率极高。

国内中文语音识别相关的有用资料很少，技术相对封闭，搜索引擎中能找到的方法基本上都是10年前的传统方法，早已过时。

在这个过程中踩了很多坑（开始两个月尝试先转拼音再转文字，fail），请教了很多人，很多个夜晚睡不着觉，想尽一切办法积累数据，有很多次会想放弃，持续专注的做了一年，最终呈现一个效果还不错的结果。

很赞同季逸超的观点，互联网领域的idea不值钱，实现也不值钱，值钱的是“经过沉淀的idea + 反复推敲地执行”

了解本专栏

评论 18

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

声纳咸鱼の声学实验室 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。