最近比力渺茫,那么就先把fairMOT研究透彻吧!本博客针对fairMOT一些技术细节举行分析,力图透彻简洁!
通俗易懂的fairMOT
一、fairMOT
之所以叫fairMOT,此中的fair的意思是,在以往的MOT框架中,作者发现了检测任务和reID任务之间的特征不公平和特征辩说问题,于是本文办理的一个问题就呼之欲出了,那就在single-shot的深度网络中办理了特征不对齐的问题,作者采取了Anchor-free的目标检测器,也是因为Anchor在目标检测和identity embedding中的应用。
上图是网络的整体结构,一目了然,检测部门和re-ID是同时举行的。
1.1、基准网络
这个网络实在就是个特征提取网络,搞深度学习最根本的一步,对于输入图像如那边理处罚,某种水平上能决定网络性能的好坏,输入的图片维度是 H i m a g e H_{image} HimageX W i m a g e W_{image} Wimage,颠末Backbone网络后,维度变为 C × H × W C \times H \times W C×H×W,此中宽高变为原来的1/4。基准网络采取DLA-34,这是ResNet-34与魔改版DLA网络的联合版,别的上采样部门的卷积核均被替换成可变形卷积。
1.2、检测分支
我们的检测分支建立在CenterNet的[10]之上,但也可以使用其他无锚的方法,如文献[16]、[18]、[47]、[48]。我们将扼要形貌使这项工作自包罗的方法。特别地,在DLA-34中附加三个平行的头,分别用来估计热图、对象中心偏移量和界限盒巨细。每个头部通过对DLA-34的输出特征应用一个3x3卷积(256通道),然后使用一个1x1卷积层生成最终目标来实现。
1.2.1、热度图Head
这个Head负责估计物体中心的位置。本文采取基于热图的表现方法,这是地标点估计任务的事实标准。特别地,热度图的尺寸为 1 × H × W 1 \times H \times W 1×H×W。如果热图中某一位置与地面真实物体中心坍塌,则该位置的响应预计为1。响应随着热图位置和对象中心之间的间隔呈指数衰减。(这段没看太懂)
下面这段是对寻找中心点的训练。
这部门是为了在热度图中寻找目标的中心位置。
1.2.2、Box Offset and Size Heads
Box offset Head的目标是更准确地定位对象。由于最终特征图的步幅是4,它将引入最多4个像素的量化误差。该分支估计每个像素相对于对象中心的一连偏移量,以减轻降采样的影响。Box size Head负责估计每个位置的目标盒子的高度和宽度。
从训练来讲,网络的输出和真实值举行比力,一个是size的输出和GT值,一个是offset的输出和GT值,那么损失函数自然而来就来了:
1.3、reID分支
Re-ID branch的目标是生成可以或许区分物体的特征。理想情况下,差异对象之间的关联性应该小于相同对象之间的关联性。为了实现这一目标,我们在骨干特征上应用128个核的卷积层来提取每个位置的re-ID特征。界说得到的特征图为 E ∈ R 128 × W × H E \in R^{128 \times W \times H} E∈R128×W×H,以{x,y}为中心的对象的re-ID特征 E x , y ∈ R 128 E_{x,y}\in R^{128} Ex,y∈R128可以从feature map中提取。
1.3.1、reID损失
我们通过分类任务来学习reID特征。训练会集具有相同标识的所有对象实例都被视为相同的类。对于每个GT box b i = ( x 1 i , y 1 i , x 2 i , y 2 i ) b^i = (x_1^i,y_1^i,x_2^i,y_2^i) bi=(x1i,y1i,x2i,y2i),在图像中,我们得到热图上的对象中心,我们提取重新识别特征向量,并学习将其映射到一个类分布向量P = { p ( k ) , k ∈ [ 1 , K ] {p(k),k \in [1,K]} p(k),k∈[1,K]}。界说GT类标号的one-hot表现为 L i ( k ) L^i(k) Li(k)。损失函数为:
此中K为类数。在我们的网络训练过程中,我们只使用位于对象中心的identity embedding向量举行训练,因为fairMOT在测试时可以从对象heatmap中得到对象中心。
先分享到这里!
来源:https://blog.csdn.net/qq_33949900/article/details/111983886
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |