ResNet-50算法实战与解析_resnet50论文-CSDN博客

一、前言

难度：夯实基础⭐⭐
语言：Python3、Pytorch3
🍺要求：
1.根据本文的Tensorflow代码，编写Pytorch代码
2.了解残差网络
3.是否可以将残差模块融合到C3中

二、论文分析

论文：Deep Residual Learning for Image Recognition

问题的提出：

随着网络层数的增加，更深的网络具有更大的训练误差，从而导致测试误差。

所以提出了一个问题：对叠层数越多是不是训练网络效果越好呢？

这种问题的阻碍是梯度消失或者爆炸，而这种我们的解决办法是：初始化归一和中间层归一化

随着网络深度的增加，精度变得饱和，然后迅速退化，但是这种退化不是由于过度拟合引起的，这也就成为了模型训练退化问题。像适当深度的模型添加更多层会导致更高的训练误差。解决这种误差是这篇论文的主要目的。

解决方案一：添加的层是身份映射，其他层是从学习中较浅的模型复制，但是现有的解释器很难做

解决方案二：引入深度残差学习框架来解决这种退化问题。

将所需的基础映射表示为H（x）

让堆叠的非线性层适合F（x）：= H（x）- x的另一个映射。

原始映射为F（x）+ x。

通过快捷连接来实现身份验证。

实验证明：

1）极深的残差网络易于优化，但是当深度增加时，对应的“普通”网络（简单地堆叠层）显示出更高的训练误差；

2）深层残差网络可以通过大大增加深度来轻松享受准确性的提高，所产生的结果比以前的网络要好得多。

Deep Residual Learning

残差学习：
将H（x）视为由一些堆叠层（不一定是整个网络）拟合的基础映射，其中x表示这些层中第一层的输入。如果假设多个非线性层可以渐近逼近复杂函数，那么就可以假设它们可以渐近逼近残差函数，即H（x）-x（假设输入和输出为尺寸相同）。因此，没有让堆叠的层近似为H（x），而是明确地让这些层近似为残差函数F（x）：= H（x）-x。因此，原始函数变为F（x）+ x。尽管两种形式都应能够渐近地逼近所需的功能（如假设），但学习的难易程度可能有所不同。

简单来讲：
整个模块除了正常的卷积层输出外，还有一个分支把输入直接连在输出上，该分支输出和卷积的输出做算数相加得到了最终的输出，这种残差结构人为的制造了恒等映射，即F（x）分支中所有参数都是0，H（x）就是一个恒等映射，这样就能让整个结构朝着恒等映射的方向去收敛，确保最终的错误率不会因为深度的变大而越来越差。

假设我们现在已经有了一个N层的网络，现在在尾部加上K个残差模块（M层），

如果说这K个残差会造成网络过深，那么这K个残差模块会向恒等映射方向发展（参数为0），进而解决了网络过深问题

网络框架：

实验结果

可以明显看到在用ResNet之后，随着网络深度的增加，网络的训练效果更好。

三、残差网络（ResNet）介绍

1、残差网络解决了什么

残差网络是为了解决神经网络隐藏层过多时，而引起的网络退化问题。退化（degradation）问题是指：当网络隐藏层变多时，网络的准确度达到饱和然后急剧退化，而且这个退化不是由于过拟合引起的。

拓展：深度神经网络的"两朵乌云"

梯度弥散/爆炸

简单来讲就是网络太深了，会导致模型训练难以收敛。这个问题可以被标准初始化和中间层正规化的方法有效控制。

网络退化

随着网络深度增加，网络的表现先是逐渐增加至饱和，然后迅速下降，这个退化不是由过拟合引起的。

2、ResNet-50介绍

ResNet-50有两个基本的块，分别名为Conv Block和Identity Block

Conv Block结构：和Identity Block结构：
在这里插入图片描述

ResNet-50总体结构：

四、构造ResNet-50模型

1. 设置GPU

如果设备上支持GPU就使用GPU,否则使用CPU

import warnings
warnings.filterwarnings("ignore") #忽略警告信息
import torch
device=torch.device("cuda" if torch.cuda.is_available() else "CPU")
device

运行结果：

device(type='cuda')

2. 导入数据

同时查看数据集中图片的数量

import pathlib
data_dir=r"D:\data\J-series\J1\bird_photos"
data_dir=pathlib.Path(data_dir)
image_count=len(list(data_dir.glob('*/*')))
print("图片总数为：",image_count)

图片总数为： 565

3. 查看数据集分类

data_paths=list(data_dir.glob('*'))
classeNames=[str(path).split("\\")[5] for path in data_paths]
classeNames

运行结果：

['Bananaquit', 'Black Skimmer', 'Black Throated Bushtiti', 'Cockatoo']

4. 随机查看图片

随机抽取数据集中的20张图片进行查看

import random,PIL
import matplotlib.pyplot as plt
from PIL import Image
 
data_paths2=list(data_dir.glob('*/*'))
plt.figure(figsize=(20,4))
for i in range(20):
    plt.subplot(2,10,i+1)
    plt.axis('off')
    image=random.choice(data_paths2)  #随机选择一个图片
    plt.title(image.parts[-2]) #通过glob对象取出他的文件夹名称，即分类名
    plt.imshow(Image.open(str(image)))  #显示图片

运行结果：
在这里插入图片描述

5. 图片预处理

import torchvision.transforms as transforms
from torchvision import transforms,datasets
 
train_transforms=transforms.Compose([
    transforms.Resize([224,224]), #将图片统一尺寸
    transforms.RandomHorizontalFlip(), #将图片随机水平翻转
    transforms.ToTensor(), #将图片转换为tensor
    transforms.Normalize(  #标准化处理—>转换为正态分布，使模型更容易收敛
        mean=[0.485,0.456,0.406],
        std=[0.229,0.224,0.225]
    )
])
test_transforms=transforms