《深度学习图像分割》这本书写写停停,历经三年多,目前在二稿修订中。正式出版之前,计划先在GitHub做逐步的内容和代码开源。
以下为本书第3章节选内容:
近年来,基于深度学习的图像分割技术发展迅猛,涌现出大量创新的模型和算法。然而,构成这些方法的核心技术组件并未发生根本性变化。为了能够系统性的理解深度学习图像分割模型的设计,本章将首先回顾图像分割中的关键技术组件,为后续章节中深度学习分割网络的具体介绍奠定基础。本章将从图像分类网络与编码器、上采样方法与解码器、跳跃连接、空洞卷积、图模型与图像分割后处理方法、深度监督方法、分割模型损失函数与性能评价方法等多个方面来阐述深度学习图像分割的关键技术组件。
3.1 图像分类网络与编码器
在本书第1章中,我们了解到基于深度学习的图像分类、目标检测和图像分割的三大视觉任务本质上是一种任务粒度不断细分的过程。因而,图像分割网络模型的设计非常依赖于图像分类网络。实际上,图像分类网络在图像分割网络模型结构设计中充当了编码器(encoder)的作用,主要用于提取图像各种层次的特征和浓缩图像语义信息,为后续的解码过程提供高质量的特征表达。
随着CNN在图像领域的应用逐步深入,相关深度学习网络结构设计层出不穷。自2012年起,伴随着ImageNet大规模视觉挑战赛(ILSVRC)的举办,每年都有性能卓越的新网络结构问世,为计算机视觉领域注入了深度学习的活力。2012年,Alex Krizhevsky在ILSVRC上提出的AlexNet首次展示了深度卷积神经网络在图像识别中的潜力。AlexNet凭借显著的优势获得了冠军,将ImageNet数据集的Top-5错误率从往年的26%降至16.4%,相比于第二名的传统机器学习模型有了大幅度的提升。这一突破性成果迅速引起了学界和业界的广泛关注,并标志着计算机视觉逐渐进入深度学习主导的时代。AlexNet包含约6亿3千万条连接,6千万个参数和65万个神经元,其设计大大拓展了网络的深度与复杂度。这一网络结构由5层卷积层和3层全连接层组成,前几层卷积后接最大池化层以实现下采样。具体来说,第一、第二和第五层卷积后分