# 实时语音转录与翻译工具
本文档完全有deepseek r1生成,项目基本有deepseek v3产生。
本项目实现实时语音转录功能,支持中英文识别,并集成DeepSeek API进行即时翻译。识别结果通过浮动窗口实时展示,适合会议记录、实时翻译等场景。
## 功能特性
- **实时语音识别**
支持Whisper多种模型(tiny/base/small/medium/large-v3)
- **智能文本处理**
自动分段输出,支持停顿符号(...)和强调词(大写)标注
- **多语言翻译**
集成DeepSeek API,非中文内容自动翻译为中文
- **悬浮显示窗口**
支持置顶显示、多行滚动、颜色区分原文/译文
- **高可配置性**
支持自定义录音参数、显示样式和AI模型选择
## 环境要求
- Python 3.9+
- NVIDIA GPU(推荐,非必须)
- 麦克风设备
## 安装步骤
### 1. 克隆仓库
```bash
git clone https://github.com/yourusername/speech-translator.git
cd speech-translator
```
### 2. 安装依赖
```bash
pip install sounddevice
pip install numpy
pip install whisper-openai
pip install requests
pip install tkinter
```
### 使用说明
基本使用
```bash
# 启动语音识别(默认参数)
python whisper_text.py
# 启动显示窗口(另开终端)
python show_text.py
```
### 高级参数
```bash
python whisper_text.py \
--device 12 \ # 音频设备ID(通过python -m sounddevice查看)
--rate 16000 \ # 采样率(48000/16000)
--duration 3 \ # 录音分段时长(秒)
--model large-v3 \ # Whisper模型选择
--output recordings \ # 音频保存目录
--channels 1 # 录音声道数
```
显示窗口控制
置顶显示:窗口默认置顶,点击标题栏可取消
字体调整:修改show_text.py第41行font_size值
最大行数:修改show_text.py第42行max_lines值
工作原理
音频采集
通过sounddevice库以指定参数录制音频片段
语音识别
Whisper模型进行实时转录,支持中英文自动检测
文本处理
智能分段输出
自动去除无效尾缀(.../---)
上下文连贯性保持
翻译引擎
非中文内容通过DeepSeek API进行即时翻译
可视化输出
Tkinter窗口实时显示,原文(蓝色)与译文(黑色)区分
常见问题
Q1: 录音设备无法识别
执行 python -m sounddevice 查看可用设备ID
确保麦克风权限已开启
Q2: 翻译响应延迟
检查API密钥有效性
调整--duration参数(建议3-5秒)
尝试更小的Whisper模型(如base)
Q3: 显示窗口不更新
确认同时运行show_text.py
检查防火墙是否阻止Python访问网络

LeonDL168
- 粉丝: 7263
最新资源
- 工艺技术项目管理办法.doc
- 网络综合布线系统设计及组网原理样本.doc
- 通信发展史01.ppt
- 网站客服工作计划范文.doc
- 公需科目人工智能与健康试题及答案完整版.doc
- 机关单位网络与信息安全应急预案.docx
- 网络安全07-防火墙.ppt
- 物联网实验实训中心建设方案.doc
- 个人简历之电子商务简历自我评价.docx
- 系统集成项目管理工程师试题分析与解答按清华.docx
- 微软服务器虚拟化培训讲义.pptx
- 企业网络安全方案设计.doc
- 学校教育信息化发展规划.doc
- 东南大学信息学院通信网复习总结.docx
- 项目管理思维与关键.docx
- 国家开放大学电大专科《网络信息编辑》简答题题库及答案(试卷号:2489).docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈


