目录
人体骨骼关键点检测主要有两个方向,一种是自上而下,一种是自下而上。
1、自上而下
自上而下的人体骨骼关键点定位算法主要包含两个部分,人体检测和单人人体关键点检测。
即首先通过目标检测算法将每一个人检测出来,然后在检测框的基础上针对单个人做人体骨骼关键点检测,其中代表性算法有G-RMI, CFN, RMPE, Mask R-CNN, and CPN。
2、自下而上
自下而上的方法也包含两个部分,关键点检测和关键点聚类,即首先需要将图片中所有的关键点都检测出来,然后通过相关策略将所有的关键点聚类成不同的个体,其中对关键点之间关系进行建模的代表性算法有PAF, Associative Embedding, Part Segmentation, Mid-Range offsets。
3、Ground Truth的构建
关键点回归的Ground Truth的构建问题,主要有两种思路,Coordinate和Heatmap。
Coordinate即直接将关键点坐标作为最后网络需要回归的目标,这种情况下可以直接得到每个坐标点的直接位置信息;Heatmap即将每一类坐标用一个概率图来表示,对图片中的每个像素位置都给一个概率,表示该点属于对应类别关键点的概率,比较自然的是,距离关键点位置越近的像素点的概率越接近1,距离关键点越远的像素点的概率越接近0,具体可以通过相应函数进行模拟,如Gaussian等。如果同一个像素位置距离不同关键点的距离大小不同,即相对于不同关键点该位置的概率不一样,这时可以取Max或Average。
对于两种Ground Truth的差别,Coordinate网络在本质上来说,需要回归的是每个关键点的一个相对于图片的offset,而长距离offset在实际学习过程中是很难回归的,误差较大,同时在训练中的过程,提供的监督信息较少,整个网络的收敛速度较慢;Heatmap网络直接回归出每一类关键点的概率,在一定程度上每一个点都提供了监督信息,网络能够较快的收敛,同时对每一个像素位置进行预测能够提高关键点的定位精度,在可视化方面,Heatmap也要优于Coordinate,除此之外,实践证明,Heatmap确实要远优于Coordinate。
对于Heatmap + Offsets的Ground Truth构建思路主要是Google在CVPR 2017上提出的,与单纯的Heatmap不同的是,Google的Heatmap指的是在距离目标关键点一定范围内的所有点的概率值都为1,在Heatmap之外,使用Offsets,即偏移量来表示距离目标关键点一定范围内的像素位置与目标关键点之间的关系。
Towards accurate multi-person pose estimation in the wild(cvpr2017)
第一阶段使用faster rcnn做detection,检测出图片中的多个人,并对bounding box进行image crop; 第二阶段采用fully convolutional resnet对每一个bonding box中的人物预测dense heatmap和offset; 最后通过heatmap和offset的融合得到关键点的精确定位。
数据集
2D关键点检测
文章
文章+代码
3D关键点检测
评价指标
实操网站
一些奇怪的单词
3、OKS
4、NMS
5、anchor
杂谈
1、近200FPS的高帧多人姿态检测丨YOLO+OpenPose
2、DensePose
DensePose: Dense Human Pose Estimation In The Wild(CVPR2018,Facebook)
3、Jonathan Tompson(a Senior Research Scientist for Google Brain): https://jonathantompson.github.io/
参考
https://blog.csdn.net/sigai_csdn/article/details/80650411
https://zhuanlan.zhihu.com/p/69042249
https://zhuanlan.zhihu.com/p/102457223