CNN包括LeNet、AlexNet、VGG、GoogleNet、ResNet,卷积过程中空间结构特性被忽略。
全连接层用于分类任务的输出层。全连接层的每个神经元都与前一层的所有神经元相连,因此它需要一个固定长度的输入向量。这个输入向量的长度对应了全连接层的神经元个数,如果输入向量的长度不固定,那么全连接层的权值参数个数也将不固定,这会导致网络结构的不稳定和训练过程的复杂性增加。
全连接层的一个关键限制是它们需要接收固定大小的输入。为了解决这个问题,通常在卷积层和全连接层之间引入了一个称为“展平”(Flatten)的操作。
LeNet
应用于图像分类,手写数字识别。难以处理大尺寸图片。
尺寸 | 通道数 | |
输入图像 | 32*32 | 1 |
卷积层 | 28*28 | 6 |
池化层 | 14*14 | 6 |
卷积层 | 10*10 | 16 |
池化层 | 5*5 | 16 |
卷积层 | 1*1 | 120 |
AlexNet
为了防止过拟合,AlexNet 引入了数据增强和 Dropout 技术。
VGG
堆叠多个3*3的卷积核来代替大尺度卷积核(目的:减少所需参数)。VGG模型的成功证明了增加网络的深度,可以更好的学习图像中的特征模式。
GoogLeNet 分类任务
由于图像信息在空间尺寸上的巨大差异,如何选择合适的卷积核大小来提取特征就显得比较困难了。空间分布范围更广的图像信息适合用较大的卷积核来提取其特征,而空间分布范围较小的图像信息则适合用较小的卷积核来提取其特征。为了解决这个问题,GoogLeNet提出了一种被称为Inception模块的方案。
ResNet分类识别
残差网络ResNet解决增加网络的层数之后,训练误差往往不降反升的问题。