CenterNet

论文:Objects as Points

地址:https://paperswithcode.com/paper/objects-as-points

cylinder 目标检测 目标检测centernet_计算机视觉

基本思想

  目标检测一般将图像中物体识别为一个平行坐标轴的框,目前多数的检测器都几乎穷举了图像中所有可能的目标位置然后对其进行分类,这种方式非常低效而且需要额外的后处理。论文提出的检测方法CenterNet则将目标视为单个的点——边界框的中心点,该检测器使用关键点估计来确定中心点,然后回归所有其他的属性,比如尺寸,3D位置,角度甚至是姿态,CenterNet是一个端到端,全程可微,高校简单又准确的检测器,不仅再2d目标检测上表现较好,也可用于3d检测以及人体姿态估计。

  CenterNet将目标检测问题转换为一个标准的关键点估计问题,首先将图像喂给一个全卷积网络产生热点图,图上的峰值点对应目标的中心,每个峰值点附近的图像特征来预测目标的宽高,模型训练的方法使用的是标准的密集任务有监督学习,推断则是完全端到端没有nms后处理的方法。

  CenterNet与基于Anchor的一阶段检测器类似,一个中心点可以被视为一个形状位置的Anchor,不同的是:

  • CenterNet确定“anchor”只与位置相关,与框的重叠度无关;
  • 每个目标只有一个正“anchor”因此不需要NMS;
  • CenterNet输出的分辨率较大OS=4.

形式化

cylinder 目标检测 目标检测centernet_目标检测_02表示宽高分别为cylinder 目标检测 目标检测centernet_3D_03的输入图像,目标是预测一个关键点热力图cylinder 目标检测 目标检测centernet_3D_04,其中cylinder 目标检测 目标检测centernet_cylinder 目标检测_05表征输出的特征图尺寸,cylinder 目标检测 目标检测centernet_计算机视觉_06表示关键点类型的数量(或者目标检测中的目标类别数),论文中cylinder 目标检测 目标检测centernet_宽高_07。在热力图中cylinder 目标检测 目标检测centernet_宽高_08对应一个被检测到的关键点,cylinder 目标检测 目标检测centernet_cylinder 目标检测_09表示背景。

训练目标

2D目标检测

cylinder 目标检测 目标检测centernet_计算机视觉_10的GT关键点cylinder 目标检测 目标检测centernet_计算机视觉_11,模型都会计算一个低分辨率的替换值cylinder 目标检测 目标检测centernet_目标检测_12,然后使用一个高斯核函数cylinder 目标检测 目标检测centernet_计算机视觉_13将所有的GT关键点赋予到一幅热力图cylinder 目标检测 目标检测centernet_宽高_14,如果同一类别的两个高斯生成点重叠,则以较大值为准,训练的目标损失函数如下:

cylinder 目标检测 目标检测centernet_宽高_15

cylinder 目标检测 目标检测centernet_计算机视觉_16是focal loss的超参数,论文中cylinder 目标检测 目标检测centernet_宽高_17cylinder 目标检测 目标检测centernet_计算机视觉_18表示图像cylinder 目标检测 目标检测centernet_cylinder 目标检测_19中关键点的数量,除以cylinder 目标检测 目标检测centernet_计算机视觉_18是为了对所有的正损失归一化。

cylinder 目标检测 目标检测centernet_目标检测_21,所有的类别cylinder 目标检测 目标检测centernet_计算机视觉_10共享同一个偏移与测量,这里使用如下所示L1损失函数:

cylinder 目标检测 目标检测centernet_宽高_23

cylinder 目标检测 目标检测centernet_计算机视觉_24起作用。

cylinder 目标检测 目标检测centernet_目标检测_25表示目标类别为cylinder 目标检测 目标检测centernet_3D_26的目标cylinder 目标检测 目标检测centernet_目标检测_27的边界框,其中心点cylinder 目标检测 目标检测centernet_目标检测_28,使用关键点估计cylinder 目标检测 目标检测centernet_cylinder 目标检测_29来预测所有的中心点,另外,为每个目标cylinder 目标检测 目标检测centernet_目标检测_27进行尺寸cylinder 目标检测 目标检测centernet_cylinder 目标检测_31的回归,使用L1损失来指导训练:

cylinder 目标检测 目标检测centernet_cylinder 目标检测_32

cylinder 目标检测 目标检测centernet_cylinder 目标检测_33

cylinder 目标检测 目标检测centernet_目标检测_34

cylinder 目标检测 目标检测centernet_目标检测_35个模型输出。

cylinder 目标检测 目标检测centernet_3D_36表示cylinder 目标检测 目标检测centernet_宽高_37个被检测到的类别为cylinder 目标检测 目标检测centernet_计算机视觉_10的中心点cylinder 目标检测 目标检测centernet_cylinder 目标检测_39的集合,每个关键点的位置坐标由cylinder 目标检测 目标检测centernet_宽高_40给出,使用关键点的值cylinder 目标检测 目标检测centernet_目标检测_41作为检测的置信度然后在该位置产生一个边界框:

cylinder 目标检测 目标检测centernet_目标检测_42

cylinder 目标检测 目标检测centernet_cylinder 目标检测_43是偏移预测量,cylinder 目标检测 目标检测centernet_宽高_44是尺寸与测量,其中峰值点提取可以使用一个cylinder 目标检测 目标检测centernet_cylinder 目标检测_45最大池化,不再需要NMS后处理。

单目3D目标检测

cylinder 目标检测 目标检测centernet_计算机视觉_46对于每个中心点来说是一个单独的所放量,但是深度比较难以直接回归,论文使用将深度作为一个额外的输出通道cylinder 目标检测 目标检测centernet_目标检测_47来计算,这里也使用L1损失,其中cylinder 目标检测 目标检测centernet_目标检测_48是GT绝对深度,具体地:

cylinder 目标检测 目标检测centernet_cylinder 目标检测_49

cylinder 目标检测 目标检测centernet_宽高_50和L1损失来进行回归,其中cylinder 目标检测 目标检测centernet_cylinder 目标检测_51表示目标的GT长宽高,具体地:

cylinder 目标检测 目标检测centernet_计算机视觉_52

cylinder 目标检测 目标检测centernet_cylinder 目标检测_53范围内,另一个bin则对应角度在cylinder 目标检测 目标检测centernet_目标检测_54。对于每个bin,其中两个参数cylinder 目标检测 目标检测centernet_目标检测_55用于softmax分类(如果朝向叫落在这个bin),另外两个参数cylinder 目标检测 目标检测centernet_cylinder 目标检测_56用于预测bin内的正弦与余弦偏移(相对于bin中心cylinder 目标检测 目标检测centernet_宽高_57),令GT朝向角cylinder 目标检测 目标检测centernet_3D_58,L1损失具体为:

cylinder 目标检测 目标检测centernet_cylinder 目标检测_59

cylinder 目标检测 目标检测centernet_计算机视觉_60cylinder 目标检测 目标检测centernet_cylinder 目标检测_61,其余cylinder 目标检测 目标检测centernet_3D_62cylinder 目标检测 目标检测centernet_目标检测_63,最终预测的cylinder 目标检测 目标检测centernet_宽高_64通过8个参数来编码,其中cylinder 目标检测 目标检测centernet_宽高_65表示bin的索引:

cylinder 目标检测 目标检测centernet_cylinder 目标检测_66

人体姿态估计

cylinder 目标检测 目标检测centernet_目标检测_27个2D人体连接点,考虑对于每个中心点姿态为cylinder 目标检测 目标检测centernet_计算机视觉_68维属性,然后将其参数化为对于中心点的一个偏移,从而直接使用L1损失回归连接点cylinder 目标检测 目标检测centernet_cylinder 目标检测_69。为了更好的输出关键点,论文还会使用一个标准的自底向上的多人体姿态估计来预测cylinder 目标检测 目标检测centernet_目标检测_27个人体关键点热力图cylinder 目标检测 目标检测centernet_3D_71

结论

  总的来说,论文提出的方法不需要后处理,易于扩展可丝滑应用于多种视觉任务,效率高精度好,实现了较好的速度精度均衡。