Whisper Turbo MLX 使用教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00465/article/details/147298210

Whisper Turbo MLX 使用教程

whisper-turbo-mlx Blazing fast whisper turbo for ASR (speech-to-text) tasks 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-turbo-mlx

1. 项目目录结构及介绍

Whisper Turbo MLX 项目是一个快速的语音识别（ASR）工具，其目录结构如下所示：

whisper-turbo-mlx/
├── assets/
├── LICENSE
├── README.md
├── multilingual.tiktoken
├── requirements.txt
├── setup.py
├── test.wav
└── whisper_turbo.py

assets/: 存放项目相关的资源文件，目前为空。
LICENSE: 项目的许可证文件，本项目采用MIT协议。
README.md: 项目的说明文档，介绍了项目的相关信息和使用方式。
multilingual.tiktoken: 多语言处理的token文件。
requirements.txt: 项目运行所需的Python库依赖。
setup.py: Python的安装脚本，用于将项目打包成可安装的Python包。
test.wav: 测试用的音频文件。
whisper_turbo.py: 项目的主要Python文件，包含Whisper模型的实现和接口。

2. 项目的启动文件介绍

项目的启动主要是通过命令行操作whisper_turbo.py文件。以下是一个简单的启动示例：

python whisper_turbo.py test.wav

这条命令会使用默认的配置和参数处理名为test.wav的音频文件，并将其转录成文本。

如果你想要使用库在Python脚本中进行转录，可以按照以下方式：

from whisper_turbo import transcribe

transcribe('test.wav', any_lang=True)

这里的transcribe函数是whisper_turbo.py中定义的主要接口，用于音频文件的转录。

3. 项目的配置文件介绍

Whisper Turbo MLX 项目的配置主要通过命令行参数和whisper_turbo.py中的默认参数设置进行。目前项目中没有独立的配置文件。

在使用transcribe函数时，你可以通过传递参数来调整转录行为，例如：

any_lang: 是否启用自动语言检测。
quick: 是否启用快速转录模式。

以下是一个带有自定义参数的启动示例：

python whisper_turbo.py test.wav --quick=True

这将会以快速模式来转录音频文件。

在whisper_turbo.py脚本中，你可以找到默认参数的设置，如果需要调整默认行为，可以在该文件中进行修改。例如：

# 默认参数设置
DEFAULTS = {
    'model_size': 'base',
    'quick': False,
    'language': 'en',
    'any_lang': False,
    # 更多参数...
}

以上是Whisper Turbo MLX 项目的使用教程，希望能帮助您快速上手该项目。

whisper-turbo-mlx Blazing fast whisper turbo for ASR (speech-to-text) tasks 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-turbo-mlx