FairMOT

Abstract:

​ 近来目标检测和再识别取得了显著的成效,本文利用一个网络来处理这两个任务。作者发现,之前类似的尝试之所以取得更低的准确度,是因为re-ID任务没有被公平地学习,这导致了许多标注错误。不公平性在于以下两点:(1)以往的工作将re-ID作为目标检测之后的任务,因此标注的准确度很大程度上依赖于先前的检测任务。(2)直接借鉴对象检测的ROI-Align来提取re-ID的特征,但是由于采样点质量不佳,在描述对象时带入了许多模糊性。

为了应对以上两个问题,作者提出了FairMOT,它由两个同构分支来预测像素方向的目标检测得分和re-ID特征。在任务之间实现的公平性允许FairMOT获得高水平的检测和跟踪精度,并在几个公共数据集上遥遥领先。

1.Intro

多目标追踪主流做法是分为两个模型,检测模型为目标画出边界框,关联模型对每个边界框提取出re-ID特征,并据此将目标连接到一个已有的轨迹上。

​ 近年来目标追踪和再识别分别取得了不错的进展,然而,传统的方法无法实时进行检测,特别是当目标非常多的时候。这是因为这两个模型不共享特征,需要对视频中的每个边界框分别应用re-ID模型。

​ 为解决这个问题,利用单一网络估计目标和学习re-ID特征的一次性跟踪器受到了越来越多的关注,然而,这类工作在再识别任务中,与两步法相比,准确率明显下降。作者认为这主要是由于以下三个方面导致的:

1.锚造成的不公平:级联模型先从检测框中收集特征,这使得re——ID特征质量依赖于先前的任务。

基于锚的方法通常使用ROI-Pool或ROI-Align来采样特征,但是ROI-Align中的大多数采样位置可能属于其他干扰实例或背景。作者发现更好的采样位置是在对象的中心。

多个相邻锚点对应不同的图像块,只要其IoU足够大,就可以强制估计同一个identity。

2.特征造成的不公平

对于单网络追踪器而言,大多数特征在目标识别和重检测任务之间共享。然而,这两个任务对特征的要求大相径庭——目标检测需要深层的抽象特征来取得最好的效果,而重标记任务需要的是浅层的外观特征以区分不同的实体。

多层特征聚合是解决这一矛盾的有效方法,它允许两个任务(网络分支)从多层聚合的特征中提取出它们需要的任何特征。如果没有多层融合,模型将会偏向于主检测分支,产生低质量的re-ID特征。此外,多层融合将具有不同接受域的层的特征融合在一起,提高了处理现实中常见的目标尺度变化的能力。

3.特征维数造成的不公平性

先前的re-ID任务通常学习非常高维的特征,这也让他们在benchmark上取得了很好的成果。然而,作者发现,学习更低维数的特征对于单网络多目标检测任务而言,是一个更好的选择。(1)尽管高维特征稍微增加了对不同目标的辨别能力,但由于两个任务之间的竞争,显著损害了目标检测的精度,进而降低了最终的跟踪精度。

1.4FairMOT模型总览

本文的贡献主要分为三个方面,

​ 1.作者显式地指出和讨论了之前的单网络追踪架构面临的挑战

​ 2.在之前工作[10]的基础上,本文提出了一个能够平衡再识别任务和检测任务的框架,并且取得了超过以往方法的效果。

​ 3.提出了一个自监督学习模型,以在大规模数据上训练FairMOT,并且提升其泛化性能。

image-20200913182540879

Fig2.FairMOT的总览,其对目标检测和提取re-ID特征分别使用同构的网络,检测分支使用的是无锚定的风格,其通过位置感知测量地图估计对象的中心和大小。类似地,re-ID分支为每个像素估计一个re-ID特征,以表征以该像素为中心的对象。同构的网络消除了检测分支不公平的优势。另外,FairMOT操作在高分辨率(strides 4)的特征图上,这极大提高了追踪精度。

3.FairMOT(实现细节)

3.1主干网络

作者选择了ResNet-34作为主干网络,为的是兼顾性能和效率。同时还应用了深层聚合(DLA)的增强版本来融合多层特征。另外,所有上采样模组的卷积层都被替换成了可变卷积(deformable convolution),这使得他们可以动态调整感受野。修改过的模型被称为DLA-34

3.2目标检测分支

​ 作者选择的实现是CenterNet,在DLA-34后加了3个平行的head,这些head被实现为:对DLA-34的输出做3×3卷积。

1.热点图的head

​ 这个head负责估计物体中心的位置。对于每个Ground Truth框bi=(x1i,y1i,x2i,y2i),目标中心(cxi,cyi)表示为框的几何中心。而其在热点图的中心为:

image-20200913194134996

其中N为图中目标的个数。损失函数:

image-20200913194217551

2.框偏置与大小的head

损失函数如下:

image-20200913194906043

3.3再识别分支

在主干特征的顶部使用一个有128个核的卷积层来提取每个位置的re-ID特征。对于每个Ground Truth框bi=(x1i,y1i,x2i,y2i),取得热点图的目标中心(cxi,cyi)。之后提取re-ID特征向量Ecxi,cyi,并学习将其映射到类分布向量P={p(k),k∈[1,K]}.损失函数如下:

image-20200913195551863

4.训练和结果

总体的损失函数:

image-20200913195649763
image-20200913200110216

测试结果

image-20200913200004562