1、做成实时语音识别的困难有哪些?
①选择合适的部署方案:网上查找关于whisper和faster_whisper的各种部署方案,考虑自身资源,应该选择何种方案? 可以参考网址:https://github.com/ufal/whisper_streaminghttps://github.com/ufal/whisper_streaming
根据网址里面的whisper_streaming工程,主要研究一下whisper_online.py和whisper_online_server.py。如果whisper_online.py不能运行,请修改whisper模型的本地下载路径。
bilibili上,编程分享录账号,分享了自然语言处理的各种模型和部署方案,有助于大家理解和学习。
2、请各位留言交流,whisper模型要求30s左右的音频,实时语音识别中,客户端每次发到服务端的语音长度只有数秒,怎么提高语音识别准确率?