基于tensorflow和deepspeech的中文语音识别模型,训练+部署

本文介绍了将deepspeech 2的theano后端替换为tensorflow,并结合mozilla的beam search和n-gram解码模块,提高中文语音识别的准确性。通过调整模型结构、忽略卷积层无效输出、冻结BN层等措施,实现与科大讯飞相当的识别效果,尤其在特定领域表现优秀。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

将百度DeepSpeech的keras后端由theano改为tensorflow,整合mozilla解码模块进行中文语音识别模型部署,以下称deepspeech-enhance模型。

工业级中文语音识别系统,电子书,点我


项目背景

这是我调整了整整一年后落地的项目,效果能和科大讯飞媲美,不如讯飞的点是识别结果中没有标点符号,在特定领域准确率极高。

国内中文语音识别相关的有用资料很少,技术相对封闭,搜索引擎中能找到的方法基本上都是10年前的传统方法,早已过时。

在这个过程中踩了很多坑(开始两个月尝试先转拼音再转文字,fail),请教了很多人,很多个夜晚睡不着觉,想尽一切办法积累数据,有很多次会想放弃,持续专注的做了一年,最终呈现一个效果还不错的结果。

很赞同季逸超的观点,互联网领域的idea不值钱,实现也不值钱,值钱的是“经过沉淀的idea + 反复推敲地执行

评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

声纳咸鱼の声学实验室

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值