论文分享 MobileNetV2: Inverted Residuals and Linear Bottlenecks

最新推荐文章于 2024-09-02 07:48:58 发布

Klay Ye

最新推荐文章于 2024-09-02 07:48:58 发布

阅读量2.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：论文分享文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_34275246/article/details/123341693

论文分享专栏收录该内容

22 篇文章

订阅专栏

本文介绍了MobileNetV2，一种新的移动网络架构，提高了多个任务和基准测试的性能。MobileNetV2引入了倒置残差结构和线性瓶颈层，使用深度可分离卷积降低计算成本。此外，我们还看到了在SSDLite框架下进行对象检测和MobileDeepLabv3用于语义分割的应用。通过移除非线性层，模型性能得到提升，同时保持了输入/输出域和表达性的分离。实验在ImageNet分类、COCO对象检测和VOC图像分割上验证了模型的效率和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

在本文中，我们描述了一种新的移动架构 MobileNetV2，它提高了移动模型在多个任务和基准测试以及不同模型大小范围内的最新性能。我们还描述了在我们称为 SSDLite 的新框架中将这些移动模型应用于对象检测的有效方法。此外，我们演示了如何通过我们称为 Mobile DeepLabv3 的 DeepLabv3 的简化形式来构建移动语义分割模型。基于倒置残差结构，其中快捷连接位于薄瓶颈层之间。中间扩展层使用轻量级深度卷积来过滤特征作为非线性源。此外，我们发现去除窄层中的非线性以保持代表性很重要。我们证明这可以提高性能并提供导致这种设计的直觉。最后，我们的方法允许将输入/输出域与转换的表达性分离，这为进一步分析提供了一个方便的框架。我们测量了我们在 ImageNet [1] 分类、COCO 对象检测 [2]、VOC 图像分割 [3] 上的性能。我们评估准确性和乘加 (MAdd) 测量的操作数量以及实际延迟和参数数量之间的权衡。

3.1. Depthwise Separable Convolutions

深度可分离卷积是许多高效神经网络架构的关键构建块 [27,28,20]，我们也在当前的工作中使用它们。基本思想是用将卷积分成两个独立层的分解版本替换完整的卷积算子。

第一层称为深度卷积，它通过对每个输入通道应用单个卷积滤波器来执行轻量级滤波。第二层是 1×1 卷积，称为逐点卷积，负责通过计算输入通道的线性组合来构建新特征。标准卷积采用 hi × wi × di 输入张量 Li，并应用卷积核 K ∈ Rk×k×di×dj 以产生 hi × wi × dj 输出张量 Lj。标准卷积层的计算成本为 hi × wi × di × dj × k × k。深度可分离卷积是标准卷积层的直接替代品。从经验上讲，它们的工作原理几乎与常规卷积一样好，但成本只是：hi × wi × di × (k^2 + dj)