基于深度学习的高精度OCR图片文字识别系统-CSDN博客

本文链接：https://blog.csdn.net/qq1309399183/article/details/149149959

🖥️ 基于深度学习的高精度OCR文本识别系统

📖 项目简介

ComboOCR 是一款集成多模态深度学习模型的先进OCR系统，具备：

🔧 核心组件

PPOCRv5增强版：优化后的文本检测/识别/方向分类三合一模型
智能图像增强：GCDRNet模型自动消除阴影/噪点/反光
文档矫正引擎：DocTr++模型智能修复弯曲/倾斜文档

🚀 快速开始

环境配置

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

在这里插入图片描述

模型部署

创建模型目录：
```
mkdir -p ./models  
```
下载预训练模型：
- 扭曲矫正模型（DocTr++）[百度网盘提取码:68av]
- 外观增强模型（GCDRNet）[百度网盘提取码:68av]

启动服务

python flask_ocr.py

访问 ➡️ http://localhost:5000

📡 RESTful API 文档

在这里插入图片描述

图像识别接口

Endpoint: POST /process

请求参数：

参数	类型	必填	说明
`image`	file	✔	图像文件(png/jpg/jpeg/bmp)
`use_enhancement`	boolean	✖	启用图像增强 (默认false)
`use_dewarp`	boolean	✖	启用扭曲矫正 (默认false)

请求示例：

curl -X POST http://localhost:5000/process \  
  -F "image=@test.jpg" \  
  -F "use_enhancement=true" \  
  -F "use_dewarp=true"

响应示例：

{
  "text_result": "识别文本内容",  
  "detail": [  
    {
      "coordinates": [[x1,y1],...,[x4,y4]],  
      "content": "文本块内容",
      "confidence": 0.98
    }  
  ],  
  "visualization": "base64图像",  
  "process_time": 1.28  
}

📂 工程结构

ComboOCR/  
├── app/                  # 应用核心  
│   ├── enhancer/         # 图像增强模块  
│   └── ocr_engine/       # PPOCRv5推理模块  
├── models/               # 模型仓库  
│   ├── doctr_plus/       # 文档矫正模型  
│   └── gcdr_net/         # 质量增强模型  
├── static/               # Web静态资源  
└── temp_uploads/         # 上传文件缓存