CVPR 2019 | Rethinking on Multi-Stage Networks for Human Pose Estimation
Official Code: pytorch
1.重新划分人体姿态估计网络类别
bottom-up and top-down:
现有的人体姿态估计网络综述中,通常将其分为bottom-up和top-down两大类。其中bottom-up类网络直接提取全图人体关键点并利用启发式后处理方法将全图关键点分配到对应人体实例上。top-down类网络先通过人体目标检测算法提取全图中的人体实例框,并基于该框进行人体关键点提取。这种划分算法的方式是基于获取人体关键点的步骤进行划分的。
单阶段 and 多阶段
而本文基于网络结构的特点将人体姿态估计网络划分为单阶段人体姿态估计网络和多阶段人体姿态估计网络。单阶段人体姿态估计网络:以典型的Simple_baseline为例子,与多阶段人体姿态估计网络不同,此类网络没有模块的重叠,直接通过一个图像分类中的backbone结构,后接几个上采样操作即可构成完整的人体姿态估计网络。多阶段人体姿态估计网络:以典型的Hourglass为例子,此类网络中每一个stage都可以作为一个独立的模块,拥有自己的降采样和上采样过程。此类网络中的stage就想积木,你可以任意选择积木的数量构成最终的多阶段人体姿态估计网络。
直观来说,多阶段网络更加适合姿态估计任务,因为该结构保留着高分辨率的灵活性。可以使得低分辨率的特征和高