江大白 | 万字长文！人体姿态估计入门详细教程（推荐收藏！）

双木的木

于 2024-10-23 17:23:07 发布

阅读量2.9k

点赞数 42

分类专栏： CV-目标检测专栏深度学习拓展阅读文章标签：人工智能深度学习目标检测计算机视觉 3d 姿态估计论文

本文链接：https://blog.csdn.net/csdn_xmj/article/details/143117832

版权

本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。

原文链接：万字长文！人体姿态估计入门详细教程，推荐收藏！

导读

基于视觉的单目人体姿势估计，是计算机视觉中最基本和最具挑战性的问题之一，旨在从输入图像或视频序列中获取人体姿势。本文作者总结了人体姿态估计入门需要学习的一些知识，在学习过程中的一些感悟和踩过的坑，列举主要的工作脉络和一些细节。全文较长，这边建议先收藏再阅读！

0.前言

自己的研究方向属于人体姿态估计领域，但是学了大概两年了，才感觉刚入门（主要是自己太菜...），一开始对各种各样的名词和网络方法摸不着头脑，没有建立属于自己的研究体系，论文堆积如山，各种方法层出不穷，研究生就这么几年，哪能看的完呢？没有一个指路人，真的太难，而且这个领域的应用和教程属实没有检测和分割多......这里总结一下自己在学习过程中的一些感悟和踩过的坑，列举主要的工作脉络和一些细节，还有前期主要看的论文。主要以帮助后来者入门使用，肯定有一些内容属于自己主观理解，纯属个人经验，若有错误，麻烦一起讨论交流，感谢指正！

1.总述

人体姿态估计按照不同的标准有着各种各样的分类。包括2D/3D/mesh，单人/多人，自顶向下(top-down)/自底向上(bottom-up)，图像(image)/视频(video)，坐标/热图(heatmap), 检测(detection-based)/回归(regression-based) , 单阶段(single-stage)/多阶段(multi-stage)......等等，各种分类方法之间相互嵌套，每篇文章都有作者按照自己理解划分的类别，真的很让人摸不着头脑。但实际上，很多分类都有着递进的关系，例如：

图分类关系

大部分论文在讲述的时候，都是继承之前的论文方法，因此很多细节讲的不是很清楚，一篇参考文献就一笔带过，如果没有完整的体系架构，直接看最新的文献会很乱，发现需要补充的知识越来越多，导致知识体系细碎繁杂，看完了也不知道讲的是什么。这里给出姿态估计的几篇综述文献，里面从各个角度讲述了姿态估计的一些经典方法和分类，有助于建立整个框架体系：

[1] Single Person Pose Estimation: A Survey（2021.09）
https://arxiv.org/abs/2109.10056v1

[2] Monocular human pose estimation: A survey of deep learning-based methods（2020.06）
https://arxiv.org/abs/2006.01423

[3] Deep Learning-Based Human Pose Estimation: A Survey（2020.11） https://arxiv.org/abs/2012.13392v1)

[4] Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective (2021.04)
https://arxiv.org/abs/2104.11536

[5] Recovering 3D Human Mesh from Monocular Images: A Survey（2022.03）
https://arxiv.org/abs/2203.01923v1

在写这篇文章的时候，发现了大神刚出的一篇比较好的总结，链接放到这里，供大家学习参考，可先阅读，对比和本文的异同，以作参考：

人体姿态估计的过去，现在，未来
https://zhuanlan.zhihu.com/p/85506259

还有OpenMMlab有一期卢策吾老师的视频讲解，总结了pose相关的方法，链接如下，建议观看，以作参考：

https://www.bilibili.com/video/BV1kk4y1L7Xb

这里使用上面文献[4]的一张图展示一下相关研究和论文，按照时间顺序展示，清晰明了，推荐阅读这篇综述：

图里程碑、想法或数据集突破，以及2014年至2021年2D(上)和3D(下)姿态估计的SOTA方法

另外上面文献[5]是关于人体Mesh研究的，也是我研究的一个领域，所以把这篇综述也放了上来，同样有一张图：

图相关的参数化人体模型和三维人体网格重建方法

建立思路：按照时间建立自己的知识体系，个人认为是一个很好的方式，感受这个领域的方法一步一步的推进过程，一点一点构建自己的知识领域框架，后面读论文不再是一行一行读，而是一块一块地读；而且可以在阅读的过程中，从后面的研究者在Related Work中对早期的文章的见解和描述，是一种感受不同人对某一方法的不同见解的过程，幸运的话甚至可以从中得到启发。从一篇文献中追根溯源，并总结流派和方法，然后再继续关注当前的最新进展，逐步完善自己的领域，是我个人认为比较好的一种科研思维。

2. 体系架构

本文以如下结构进行介绍，包括人体2D，3D，Mesh；分别介绍每个类别的开山之作，主要流派(其中的经典代表网络和方法），以及最新进展，如果有更新的作品，欢迎大家进行补充。

图文章体系架构

这里推荐OpenMMLAB实验室的mmpose项目：上面有很多总结、经典以及最新方法的实现和讲解，有框架，有代码，有教程，可快速复现，而且维护和更新也很块。

https://github.com/open-mmlab/mmpose

3. 2D姿态估计

3.0 必读论文总览

下图是2D姿态估计领域比较经典的论文，也是我认为必读的一些论文，建议按照时间顺序来阅读，可以从中感受2D姿态估计的层层递进。阅读的时候建议大家关注一下作者，因为很多论文包含了同一作者，说明两篇论文之间是有联系的，例如，Openpose的前身就是CPM，MSPN是基于CPN的修改，另外Hpurglass、CPN、SimpleBaseline2D在HRNet论文中做了比较......这些论文之间的异同以及包含关系，也是比较有趣的。所有论文的题目和链接也一起放在了下面，感兴趣的童鞋可以直接下载阅读。每一篇文章的详细讲解，大家可以在各大分享平台找到，很多大佬也都分享过自己的见解，本文仅对部分文章进行简单的介绍，梳理论文逻辑，详细的内容大家可以自行阅读论文或者搜索参考其他作者讲解的内容。

当然，只看论文是不够的，因为论文对网络结构的讲解比较抽象，进一步的学习一定要亲自敲一遍网络结构的代码，这一部分后续有时间也可以整理一下（挖坑1...）。

图 2D必读论文总览

3.1 开山之作（DeepPose）

《[DeepPose: Human Pose Estimation via Deep Neural Networks]》（CVPR'2014）
https://arxiv.org/abs/1312.4659

图 DeepPose网络结构（蓝色卷积，绿色全连接）

DeepPose是姿态估估计领域中使用深度学习检测人体关节点的最初的论文，在它之前，很多文章都是基于身体部位（part）检测的。它 (1)继承了AleXNet网络结构,AlexNet 作为 backbone，是第一个DNN姿态估计网络；(2)采用级联(cascade)结构细化(refine)姿态。这对后面的网络结构思想有了很大启发，后续的很多网络也都采用了cascade的这种结构。

这篇文章提出了姿态估计的两