CV 经典主干网络 (Backbone) 系列: VGGNet
作者:Karen Simonyan 等
发表时间:2014
Paper 原文:Very Deep Convolutional Networks for Large-Scale Image Recognition
该篇是 CV 经典主干网络 (Backbone) 系列 下的一篇文章。
这个模型在当年的 ImageNet 挑战赛上分别取得了检测和分类任务的第一和第二名的成绩。论文中提出了一系列网络结构,用的较多的是 VGG16 和 VGG19,当然到了今天(2021年)都已经很少用了。
1. 网络结构
现在来看这个网络结构还是非常简单明了的。
在但是 VGGNet 主要的突破在于:
-
选用比较小的卷积核(3x3),而之前无论 AlexNet 还是 LeNet5 都是采用较大的卷积核,比如 11x11, 7x7。而采用小卷积核的意义主要有两点,一是在取得相同的感受野的情况下,比如两个3x3的感受野和一个5x5的感受野的大小相同,但是计算量却小了很多,关于这点原文中有很详细的解释,建议直接看原文;第二点是两层3x3相比一层5x5可以引入更多的非线性,从而使模型的拟合能力更强,这点作者也通过实验进行了证明。其实这里还有一个优点就是采用小的卷积核更方便优化卷积计算,比如Winograd算法对小核的卷积操作有比较好的优化效果。