文档矫正算法：DocTr++

最新推荐文章于 2025-06-19 21:50:49 发布

CV-deeplearning

最新推荐文章于 2025-06-19 21:50:49 发布

阅读量1.2k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： OCR 文章标签：算法

本文链接：https://blog.csdn.net/Guo_Python/article/details/142464039

OCR 专栏收录该内容

8 篇文章

订阅专栏

文档弯曲矫正（Document Image Rectification）的主要作用是在图像处理领域中，对由于拍摄、扫描或打印过程中产生的弯曲、扭曲文档进行校正，使其恢复为平整、易读的形态。

一. 论文和代码

论文地址：https://arxiv.org/abs/2304.08796
代码地址：https://github.com/fh2019ustc/DocTr-Plus

二. 原理简介

论文提出了一种新的数据处理方式，解决了以前文档矫正只能处理带有边界信息的完整文档，文章通过数据处理定义了三种类型的训练数据。（a）包含完整文档边界，（b）包含部分文档边界，（c）不包含文档边界。
在这里插入图片描述
算法框架如下：对于任意弯曲的文档，作者首先通过CNN抽取特征，然后通过transformer结构进行编码和解码，最后用Flow Head预测偏移场，用偏移场矫正弯曲图片。

网络架构如下图所示：

首先, 在畸变特征编码器中，DocTr++采用自注意力机制捕获形变文档的结构特征，并构建多尺度编码器，进行特征提取和融合。其中，编码器由三个子模块组成，每个子模块包含两个标准的 Transformer 编码层。这使得本方法既能编码具有高分辨率纹理细节的特征，又能获得低分辨率具有高层语义信息的特征。
接下来，矫正解码器接收编码器输出的多尺度特征以及可学习的矫正提示向量序列（Learnable Queries），输出解码后的表征用于后续坐标映射矩阵的预测。其中，可学习的矫正提示向量序列零初始化，并加上固定的位置编码。