语音识别之whisper本地部署(实时语音之开篇)

本文已首发于 秋码记录
微信公众号:你我杂志刊
在这里插入图片描述

如果你也想搭建一个与秋码记录一样的网站,可以浏览我的这篇 国内 gitee.com Pages 下线了,致使众多站长纷纷改用 github、gitlab Pages 托管平台

秋码记录网站使用的主题是开源的,目前只在github.com开源。
hugo-theme-kiwi开源地址:https://github.com/zhenqicai/hugo-theme-kiwi

Whisper是由OpenAI开发的开源语音识别模型,以其多语言支持、高准确率与鲁棒性著称。它通过68万小时的多语言、多任务数据训练,覆盖100+语言,支持语音转录、翻译和语言检测,成为目前最通用的语音识别工具之一。

其核心优势在于:

  1. 端到端训练:直接处理原始音频输入,无需复杂预处理,输出包含标点符号的完整文本。
  2. 噪声鲁棒性:在嘈杂环境、方言口音场景下仍能保持高精度。
  3. 多任务能力:支持语音翻译(如中文转英文)、时间戳标注等复杂任务。

本地安装

我始终使用python3自带的venv来搭建python虚拟环境,当然咯,你也是可以使用anacondaminiconda来构建python虚拟环境

python -m venv whisper-env
cd whisper-env/Scripts
activate

在这里插入图片描述

随后,我们安装openai-whisper这个依赖库。

pip install -U openai-whisper

或者直接从github.com仓库获取最新的。

# 或从 GitHub 安装最新版本
pip install git+https://github.com/openai/whisper.git

在这里插入图片描述

我们可以看到,所安装的依赖库中包含了tiktoken,故而,就不需要在安装了。

在这里插入图片描述

虽然,whisper是可以通过CPU来推理的,但是在电脑设备具有GPU的情况,还是选择torchCUDA版本。

pip uninstall torch
pip install torch --index-url https://download.pytorch.org/whl/cu124

在这里插入图片描述

之后,新建一个demo.py文件,写入以下脚本。

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.wav")
print(result["text"])

在这里插入图片描述

首次运行,会去下载模型,而我使用的是turbo,所以自动下载的便是large-v3-turbo

在这里插入图片描述

如果自动下载失败了,那么就手动下载吧。

模型默认加载路径:C:\Users\你电脑的用户名\.cache\whisper

https://www.modelscope.cn/models/iic/Whisper-large-v3-turbo/files

在这里插入图片描述

### 解决 PP-OCRv4 出现的错误 当遇到 `WARNING: The pretrained params backbone.blocks2.0.dw_conv.lab.scale not in model` 这样的警告时,这通常意味着预训练模型中的某些参数未能匹配到当前配置下的模型结构中[^2]。 对于此问题的一个有效解决方案是采用特定配置文件来适配预训练权重。具体操作方法如下: 通过指定配置文件 `ch_PP-OCRv4_det_student.yml` 并利用已有的最佳精度预训练模型 (`best_accuracy`) 来启动训练过程可以绕过上述不兼容的问题。执行命令如下所示: ```bash python3 tools/train.py -c configs/det/ch_PP-OCRv4/ch_PP-OCRv4_det_student.yml ``` 该方案不仅解决了参数缺失带来的警告,还能够继续基于高质量的预训练成果进行微调,从而提升最终检测效果。 关于蒸馏的概念,在机器学习领域内指的是将大型复杂网络(teacher 模型)的知识迁移到小型简单网络(student 模型)。这里 student 和 teacher 的关系是指两个不同规模或架构的神经网络之间的指导与被指导的关系;其中 teacher 已经经过充分训练并具有良好的性能,而 student 则试图模仿前者的行为模式以达到相似的效果但保持更高效的计算特性。 至于提到的 `Traceback` 错误信息部分,由于未提供具体的跟踪堆栈详情,难以给出针对性建议。不过一般而言,这类报错往往涉及代码逻辑错误或是环境配置不当等问题。为了更好地帮助定位和解决问题,推荐记录完整的异常日志,并仔细检查最近修改过的代码片段以及确认依赖库版本的一致性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

甄齐才

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值