Uformer: A General U-Shaped Transformer for Image Restoration论文阅读-CSDN博客

Uformer: A General U-Shaped Transformer for Image Restoration

1. 论文的研究目标及实际意义

研究目标：
提出一种通用的U形Transformer架构（Uformer），用于解决图像恢复任务（如去噪、去模糊、去雨等），克服传统卷积神经网络（CNvolutional Neural Networks, CNNs）在捕获长距离依赖时的局限性，同时避免Vision Transformer（ViT）在高分辨率图像上的计算瓶颈。

解决的实际问题：

计算效率：全局自注意力的计算复杂度随图像分辨率呈二次方增长，难以应用于高分辨率图像。
局部上下文缺失：Transformer在局部细节恢复（如纹理、边缘）上表现较弱。
多尺度退化模式适配：不同退化类型（模糊、噪声）需差异化处理。

产业意义：

移动端应用：高效架构适配手机摄像头实时图像增强（如夜景降噪、运动模糊修复）。
医疗与遥感：提升医学影像（如低剂量CT去噪）和卫星图像（去云、去雨）质量。
自动驾驶：增强雨雾天气下的视觉感知可靠性。

2. 创新方法：Uformer的核心设计与技术突破

Uformer的核心创新在于LeWin Transformer块（Locally-enhanced Window Transformer Block）和多尺度恢复调制器（Multi-Scale Restoration Modulator）。以下从架构设计、数学原理及优势对比三方面深入分析。

2.1 整体架构设计

Uformer采用U-Net编解码器结构（图2a）

关键改进包括：

输入处理：退化图像 $\in \mathbb{R}^{3 \times H \times W}$ 经 $3\times3$ 卷积 + LeakyReLU 提取特征 $X_0 \in \mathbb{R}^{C \times H \times W}$ 。
编码器：4级下采样（K=4），每级含 LeWin块 + 下采样层（ $4\times4$ 卷积，stride=2）。输出分辨率降为 $\frac{H}{2^l} \times \frac{W}{2^l}$ ，通道数升至 $2^l C$ 。
瓶颈层：堆叠LeWin块，捕获全局依赖（当窗口尺寸=特征图尺寸时）。
解码器：4级上采样（转置卷积 stride=2），每级融合编码器跳跃连接的特征。
输出：残差图 $\in \mathbb{R}^{3 \times H \times W}$ 通过 $3\times3$ 卷积生成，最终恢复图像 $I^{'} = I + R$ 。