本文提出了一种有效检测多人二维姿态的方法。该方法使用非参数表示，即我们所说的部件亲和域(PAFs)，来学习将图像中的个体与身体部件相关联。该体系结构对全局上下文进行编码，允许一个贪婪的自底向上解析步骤，该步骤在实现实时性能的同时保持高准确性，而不考虑图像中的人员数量。该体系结构的目的是通过同一序列预测过程的两个分支来共同学习零件的位置及其关联。我们的方法在首届COCO 2016关键点挑战中排名第一，并在性能和效率方面显著超过了MPII多人基准测试之前的最先进的结果。

1.Introduction

人体2D位姿的估计——定位解剖关键点或“部位”的问题——主要集中在寻找个体的身体部位[8,4,3,21,33,13,25,31,6,24]。在图片中推断多人的姿势，尤其是社会交往的个体，提出了一系列独特的挑战。首先，每个图像可能包含一个未知数量的人，可以出现在任何位置或规模。第二，人与人之间的相互作用，由于接触、闭塞和肢体关节，导致复杂的空间干扰，使各部分的关联变得困难。第三，运行时的复杂性会随着映像中人员的增加而增加，这使得实时性能成为一个挑战。

一种常用的方法[23,9,27,12,19]是使用个人检测器，对每个检测进行单人位姿估计。这些自顶向下的方法直接利用了现有的单人姿势估计技术[17、31、18、28、29、7、30、5、6、20]，但是受到早期承诺的影响:如果个人探测器失败(当人们接近时很容易失败)，就没有办法恢复了。此外，自顶向下的方法的运行时间与人的数量成正比:对于每次检测，运行一个单人位姿估计器，人越多，计算成本越大。相反，自底向上的方法很有吸引力，因为它们提供了对早期承诺的健壮性，并且有可能将运行时复杂性与映像中的人员数量分离开来。然而，自底向上的方法并不直接使用来自其他身体部位和其他人的全局上下文线索。在实践中，以前的自底向上方法[22,11]并没有保留效率的提高，因为最终解析需要昂贵的全局推断。例如，Pishchulin等人的开创性工作[22]提出了一种自底向上的方法，联合标记部分检测候选对象并将它们关联到个人。然而，在全连通图上求解整数线性规划问题是一个NP-hard的问题，平均处理时间在小时左右。Insafutdinov等人在[22]的基础上构建了基于ResNet[10]和图像依赖的成对分数的更强的部件检测器，并极大地改进了运行时，但该方法仍然需要几分钟的图像，并限制了部件建议的数量。在[11]中使用的成对表示很难精确地回归，因此需要单独的逻辑回归。

在这篇文章中，我们提出了一种有效的方法来估计多个人的姿态，并且在多个公共基准上具有最先进的精度。我们通过部分亲和力字段（PAF）展示了关联分数的第一个自下而上的表示形式，这是一组二维矢量场，它们在图像域上编码肢体的位置和方向。我们证明了同时推断这些检测和关联的自底向上表示足以很好地编码全局上下文，从而允许贪婪解析以一小部分计算成本获得高质量的结果。我们已经公开发布了代码的充分再现性，提出了第一个实时系统的多个人2D位姿检测。

图1。上图:多人姿态估计。属于同一人的身体部位是相连的。左下:右肘与右腕相连的肢体所对应的部分AffinityFields (PAFs)。颜色编码方向。右下角:放大后的预测PAFs。在视场中的每个像素处，二维矢量对肢体的位置和方向进行编码。

图2.总体流程。我们的方法将整个图像作为两个分支CNN的输入，共同预测用于身体部位检测的置信图，如（b）所示，以及用于部件关联的部件关联字段，如（c）所示。解析步骤执行一组二部匹配以关联身体部位候选（d）。最后，我们把它们组合成一个完整的身体姿势，供图片中的所有人使用（e）。

Method

图2说明了我们方法的总体流程。该系统将尺寸为w×h（图2a）的彩色图像作为输入，并将图像中每个人的解剖关键点的2D位置作为输出（图2e）。首先，前馈网络同时预测一组身体部位位置的2D置信图S（图2b）和一组部位亲和力的2D向量场L，其编码各部位之间的关联度（图2c）。集S=（S1，S2，…，S J）有J个置信映射，每个部分一个，其中SJ∈Rw×h，J∈{1。J}。集合L=（L1，L2，…，L C）有C向量场，每分支有一个，其中LC∈Rw×h×2，C∈{1。C} ，lc中的每个图像位置对2D向量进行编码（如图1所示）。最后，通过贪婪推理（图2d）解析置信图和关联域，输出图像中所有人的2d关键点。

淘先锋技术网

【论文翻译】Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

Abstract

1.Introduction

Method

2.1 Simultaneous Detection and Association