🖥️ 基于深度学习的高精度OCR文本识别系统
📖 项目简介
ComboOCR 是一款集成多模态深度学习模型的先进OCR系统,具备:
🔧 核心组件
- PPOCRv5增强版:优化后的文本检测/识别/方向分类三合一模型
- 智能图像增强:GCDRNet模型自动消除阴影/噪点/反光
- 文档矫正引擎:DocTr++模型智能修复弯曲/倾斜文档
🚀 快速开始
环境配置
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
模型部署
- 创建模型目录:
mkdir -p ./models
- 下载预训练模型:
- 扭曲矫正模型(DocTr++)[百度网盘 提取码:68av]
- 外观增强模型(GCDRNet)[百度网盘 提取码:68av]
启动服务
python flask_ocr.py
访问 ➡️ http://localhost:5000
📡 RESTful API 文档
图像识别接口
Endpoint: POST /process
请求参数:
参数 | 类型 | 必填 | 说明 |
---|---|---|---|
image | file | ✔ | 图像文件(png/jpg/jpeg/bmp) |
use_enhancement | boolean | ✖ | 启用图像增强 (默认false) |
use_dewarp | boolean | ✖ | 启用扭曲矫正 (默认false) |
请求示例:
curl -X POST http://localhost:5000/process \
-F "image=@test.jpg" \
-F "use_enhancement=true" \
-F "use_dewarp=true"
响应示例:
{
"text_result": "识别文本内容",
"detail": [
{
"coordinates": [[x1,y1],...,[x4,y4]],
"content": "文本块内容",
"confidence": 0.98
}
],
"visualization": "base64图像",
"process_time": 1.28
}
📂 工程结构
ComboOCR/
├── app/ # 应用核心
│ ├── enhancer/ # 图像增强模块
│ └── ocr_engine/ # PPOCRv5推理模块
├── models/ # 模型仓库
│ ├── doctr_plus/ # 文档矫正模型
│ └── gcdr_net/ # 质量增强模型
├── static/ # Web静态资源
└── temp_uploads/ # 上传文件缓存
🎨 效果演示
(左侧原始图像 / 右侧增强后识别结果)
💡 技术亮点:
- 支持复杂背景文档识别(发票/手写体/古文献)
- 单张图像平均处理时间 <1.5s (RTX3060)
- 中文场景识别准确率 >96.5%