基于深度学习的高精度OCR图片文字识别系统

🖥️ 基于深度学习的高精度OCR文本识别系统

📖 项目简介

ComboOCR 是一款集成多模态深度学习模型的先进OCR系统,具备:

🔧 核心组件

  • PPOCRv5增强版:优化后的文本检测/识别/方向分类三合一模型
  • 智能图像增强:GCDRNet模型自动消除阴影/噪点/反光
  • 文档矫正引擎:DocTr++模型智能修复弯曲/倾斜文档
    在这里插入图片描述

🚀 快速开始

环境配置

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple  

在这里插入图片描述

模型部署

  1. 创建模型目录:
    mkdir -p ./models  
    
  2. 下载预训练模型:
    • 扭曲矫正模型(DocTr++)[百度网盘 提取码:68av]
    • 外观增强模型(GCDRNet)[百度网盘 提取码:68av]

启动服务

python flask_ocr.py  

访问 ➡️ http://localhost:5000

📡 RESTful API 文档

在这里插入图片描述

图像识别接口

Endpoint: POST /process

请求参数

参数类型必填说明
imagefile图像文件(png/jpg/jpeg/bmp)
use_enhancementboolean启用图像增强 (默认false)
use_dewarpboolean启用扭曲矫正 (默认false)

请求示例

curl -X POST http://localhost:5000/process \  
  -F "image=@test.jpg" \  
  -F "use_enhancement=true" \  
  -F "use_dewarp=true"  

响应示例

{
  "text_result": "识别文本内容",  
  "detail": [  
    {
      "coordinates": [[x1,y1],...,[x4,y4]],  
      "content": "文本块内容",
      "confidence": 0.98
    }  
  ],  
  "visualization": "base64图像",  
  "process_time": 1.28  
}  

📂 工程结构

ComboOCR/  
├── app/                  # 应用核心  
│   ├── enhancer/         # 图像增强模块  
│   └── ocr_engine/       # PPOCRv5推理模块  
├── models/               # 模型仓库  
│   ├── doctr_plus/       # 文档矫正模型  
│   └── gcdr_net/         # 质量增强模型  
├── static/               # Web静态资源  
└── temp_uploads/         # 上传文件缓存  

🎨 效果演示

在这里插入图片描述

(左侧原始图像 / 右侧增强后识别结果)

💡 技术亮点

  • 支持复杂背景文档识别(发票/手写体/古文献)
  • 单张图像平均处理时间 <1.5s (RTX3060)
  • 中文场景识别准确率 >96.5%




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值