FairMOT

Posted on 2021-06-13 Edited on 2021-06-14

Abstract:

近来目标检测和再识别取得了显著的成效，本文利用一个网络来处理这两个任务。作者发现，之前类似的尝试之所以取得更低的准确度，是因为re-ID任务没有被公平地学习，这导致了许多标注错误。不公平性在于以下两点：（1）以往的工作将re-ID作为目标检测之后的任务，因此标注的准确度很大程度上依赖于先前的检测任务。（2）直接借鉴对象检测的ROI-Align来提取re-ID的特征，但是由于采样点质量不佳，在描述对象时带入了许多模糊性。

为了应对以上两个问题，作者提出了FairMOT，它由两个同构分支来预测像素方向的目标检测得分和re-ID特征。在任务之间实现的公平性允许FairMOT获得高水平的检测和跟踪精度，并在几个公共数据集上遥遥领先。

1.Intro

多目标追踪主流做法是分为两个模型，检测模型为目标画出边界框，关联模型对每个边界框提取出re-ID特征，并据此将目标连接到一个已有的轨迹上。

近年来目标追踪和再识别分别取得了不错的进展，然而，传统的方法无法实时进行检测，特别是当目标非常多的时候。这是因为这两个模型不共享特征，需要对视频中的每个边界框分别应用re-ID模型。

为解决这个问题，利用单一网络估计目标和学习re-ID特征的一次性跟踪器受到了越来越多的关注，然而，这类工作在再识别任务中，与两步法相比，准确率明显下降。作者认为这主要是由于以下三个方面导致的：

1.锚造成的不公平：级联模型先从检测框中收集特征，这使得re——ID特征质量依赖于先前的任务。

基于锚的方法通常使用ROI-Pool或ROI-Align来采样特征，但是ROI-Align中的大多数采样位置可能属于其他干扰实例或背景。作者发现更好的采样位置是在对象的中心。

多个相邻锚点对应不同的图像块，只要其IoU足够大，就可以强制估计同一个identity。

2.特征造成的不公平

对于单网络追踪器而言，大多数特征在目标识别和重检测任务之间共享。然而，这两个任务对特征的要求大相径庭——目标检测需要深层的抽象特征来取得最好的效果，而重标记任务需要的是浅层的外观特征以区分不同的实体。

多层特征聚合是解决这一矛盾的有效方法，它允许两个任务(网络分支)从多层聚合的特征中提取出它们需要的任何特征。如果没有多层融合，模型将会偏向于主检测分支，产生低质量的re-ID特征。此外，多层融合将具有不同接受域的层的特征融合在一起，提高了处理现实中常见的目标尺度变化的能力。

3.特征维数造成的不公平性

先前的re-ID任务通常学习非常高维的特征，这也让他们在benchmark上取得了很好的成果。然而，作者发现，学习更低维数的特征对于单网络多目标检测任务而言，是一个更好的选择。（1）尽管高维特征稍微增加了对不同目标的辨别能力，但由于两个任务之间的竞争，显著损害了目标检测的精度，进而降低了最终的跟踪精度。

1.4FairMOT模型总览

本文的贡献主要分为三个方面，

1.作者显式地指出和讨论了之前的单网络追踪架构面临的挑战

2.在之前工作[10]的基础上，本文提出了一个能够平衡再识别任务和检测任务的框架，并且取得了超过以往方法的效果。

3.提出了一个自监督学习模型，以在大规模数据上训练FairMOT，并且提升其泛化性能。

Fig2.FairMOT的总览，其对目标检测和提取re-ID特征分别使用同构的网络，检测分支使用的是无锚定的风格，其通过位置感知测量地图估计对象的中心和大小。类似地，re-ID分支为每个像素估计一个re-ID特征，以表征以该像素为中心的对象。同构的网络消除了检测分支不公平的优势。另外，FairMOT操作在高分辨率（strides 4）的特征图上，这极大提高了追踪精度。

3.FairMOT（实现细节）

3.1主干网络

作者选择了ResNet-34作为主干网络，为的是兼顾性能和效率。同时还应用了深层聚合(DLA)的增强版本来融合多层特征。另外，所有上采样模组的卷积层都被替换成了可变卷积（deformable convolution），这使得他们可以动态调整感受野。修改过的模型被称为DLA-34

3.2目标检测分支

作者选择的实现是CenterNet，在DLA-34后加了3个平行的head，这些head被实现为：对DLA-34的输出做3×3卷积。

1.热点图的head

这个head负责估计物体中心的位置。对于每个Ground Truth框bⁱ=(x₁ⁱ,y₁ⁱ,x₂ⁱ,y₂ⁱ),目标中心（c_xⁱ，c_yⁱ）表示为框的几何中心。而其在热点图的中心为：

其中N为图中目标的个数。损失函数：

2.框偏置与大小的head

损失函数如下：

3.3再识别分支

在主干特征的顶部使用一个有128个核的卷积层来提取每个位置的re-ID特征。对于每个Ground Truth框bⁱ=(x₁ⁱ,y₁ⁱ,x₂ⁱ,y₂ⁱ)，取得热点图的目标中心（c_xⁱ，c_yⁱ）。之后提取re-ID特征向量E_{c_xⁱ，c_yⁱ},并学习将其映射到类分布向量P={p(k),k∈[1,K]}.损失函数如下：

4.训练和结果

总体的损失函数：

测试结果