Uformer: A General U-Shaped Transformer for Image Restoration论文阅读

1. 论文的研究目标及实际意义

研究目标
提出一种通用的U形Transformer架构(Uformer),用于解决图像恢复任务(如去噪、去模糊、去雨等),克服传统卷积神经网络(CNvolutional Neural Networks, CNNs)在捕获长距离依赖时的局限性,同时避免Vision Transformer(ViT)在高分辨率图像上的计算瓶颈。

解决的实际问题

  • 计算效率:全局自注意力的计算复杂度随图像分辨率呈二次方增长,难以应用于高分辨率图像。
  • 局部上下文缺失:Transformer在局部细节恢复(如纹理、边缘)上表现较弱。
  • 多尺度退化模式适配:不同退化类型(模糊、噪声)需差异化处理。

产业意义

  • 移动端应用:高效架构适配手机摄像头实时图像增强(如夜景降噪、运动模糊修复)。
  • 医疗与遥感:提升医学影像(如低剂量CT去噪)和卫星图像(去云、去雨)质量。
  • 自动驾驶:增强雨雾天气下的视觉感知可靠性。

2. 创新方法:Uformer的核心设计与技术突破

Uformer的核心创新在于LeWin Transformer块(Locally-enhanced Window Transformer Block)和多尺度恢复调制器(Multi-Scale Restoration Modulator)。以下从架构设计、数学原理及优势对比三方面深入分析。

2.1 整体架构设计

Uformer采用U-Net编解码器结构(图2a)

关键改进包括:

  • 输入处理:退化图像 I ∈ R 3 × H × W I \in \mathbb{R}^{3 \times H \times W} IR3×H×W 3 × 3 3\times3 3×3 卷积 + LeakyReLU 提取特征 X 0 ∈ R C × H × W X_0 \in \mathbb{R}^{C \times H \times W} X0RC×H×W
  • 编码器:4级下采样(K=4),每级含 LeWin块 + 下采样层( 4 × 4 4\times4 4×4 卷积,stride=2)。输出分辨率降为 H 2 l × W 2 l \frac{H}{2^l} \times \frac{W}{2^l} 2lH×2lW,通道数升至 2 l C 2^l C 2lC
  • 瓶颈层:堆叠LeWin块,捕获全局依赖(当窗口尺寸=特征图尺寸时)。
  • 解码器:4级上采样(转置卷积 stride=2),每级融合编码器跳跃连接的特征。
  • 输出:残差图 R ∈ R 3 × H × W R \in \mathbb{R}^{3 \times H \times W} RR3×H×W 通过 3 × 3 3\times3 3×3 卷积生成,最终恢复图像 I ′ = I + R I' = I + R I=I+R

核心优势:层级结构平衡计算效率与感受野,跳跃连接保留多尺度信息。

2.2 LeWin Transformer块:局部-全局协同建模
2.2.1 窗口多头自注意力(W-MSA)

设计动机:全局自注意力复杂度 O ( H 2 W 2 C ) O(H^2 W^2 C) O(H2W2C) 难以处理高分辨率图像。
解决方案

  • 将特征图分割为 M × M M \times M M×M 非重叠窗口(默认 M = 8 M=8 M=
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青铜锁00

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值