Uformer: A General U-Shaped Transformer for Image Restoration
1. 论文的研究目标及实际意义
研究目标:
提出一种通用的U形Transformer架构(Uformer),用于解决图像恢复任务(如去噪、去模糊、去雨等),克服传统卷积神经网络(CNvolutional Neural Networks, CNNs)在捕获长距离依赖时的局限性,同时避免Vision Transformer(ViT)在高分辨率图像上的计算瓶颈。
解决的实际问题:
- 计算效率:全局自注意力的计算复杂度随图像分辨率呈二次方增长,难以应用于高分辨率图像。
- 局部上下文缺失:Transformer在局部细节恢复(如纹理、边缘)上表现较弱。
- 多尺度退化模式适配:不同退化类型(模糊、噪声)需差异化处理。
产业意义:
- 移动端应用:高效架构适配手机摄像头实时图像增强(如夜景降噪、运动模糊修复)。
- 医疗与遥感:提升医学影像(如低剂量CT去噪)和卫星图像(去云、去雨)质量。
- 自动驾驶:增强雨雾天气下的视觉感知可靠性。
2. 创新方法:Uformer的核心设计与技术突破
Uformer的核心创新在于LeWin Transformer块(Locally-enhanced Window Transformer Block)和多尺度恢复调制器(Multi-Scale Restoration Modulator)。以下从架构设计、数学原理及优势对比三方面深入分析。
2.1 整体架构设计
Uformer采用U-Net编解码器结构(图2a)
关键改进包括:
- 输入处理:退化图像 I ∈ R 3 × H × W I \in \mathbb{R}^{3 \times H \times W} I∈R3×H×W 经 3 × 3 3\times3 3×3 卷积 + LeakyReLU 提取特征 X 0 ∈ R C × H × W X_0 \in \mathbb{R}^{C \times H \times W} X0∈RC×H×W。
- 编码器:4级下采样(K=4),每级含 LeWin块 + 下采样层( 4 × 4 4\times4 4×4 卷积,stride=2)。输出分辨率降为 H 2 l × W 2 l \frac{H}{2^l} \times \frac{W}{2^l} 2lH×2lW,通道数升至 2 l C 2^l C 2lC。
- 瓶颈层:堆叠LeWin块,捕获全局依赖(当窗口尺寸=特征图尺寸时)。
- 解码器:4级上采样(转置卷积 stride=2),每级融合编码器跳跃连接的特征。
- 输出:残差图 R ∈ R 3 × H × W R \in \mathbb{R}^{3 \times H \times W} R∈R3×H×W 通过 3 × 3 3\times3 3×3 卷积生成,最终恢复图像 I ′ = I + R I' = I + R I′=I+R。
核心优势:层级结构平衡计算效率与感受野,跳跃连接保留多尺度信息。
2.2 LeWin Transformer块:局部-全局协同建模
2.2.1 窗口多头自注意力(W-MSA)
设计动机:全局自注意力复杂度 O ( H 2 W 2 C ) O(H^2 W^2 C) O(H2W2C) 难以处理高分辨率图像。
解决方案:
- 将特征图分割为 M × M M \times M M×M 非重叠窗口(默认 M = 8 M=8 M=