目标检测FPS怎么算目标检测roi

转载

温柔一刀 2024-06-15 13:22:45

文章标签 目标检测FPS怎么算取整双线性插值像素点 文章分类 计算机视觉人工智能

这两个都是用在rpn之后的。具体来说，从feature map上经过RPN得到一系列的proposals，大概2k个，这些bbox大小不等，如何将这些bbox的特征进行统一表示就变成了一个问题。即需要找一个办法从大小不等的框中提取特征使输出结果是等长的。

最开始目标检测模型Faster RCNN中用了一个简单粗暴的办法，叫ROI Pooling。

该方式在语义分割这种精细程度高的任务中，不够精准，由此发展来了ROI Align。

ROI Pooling

假如现在有一个8x8的feature map，现在希望得到2x2的输出

目标检测FPS怎么算目标检测roi_双线性插值

有一个bbox坐标为[0,3,7,8]，这个bbox的w=7，h=5

目标检测FPS怎么算目标检测roi_双线性插值_02

如果要等分成四块是做不到的，因此在ROI Pooling中会进行取整。就有了下图看到的h被分割为2,3，w被分割成3,4。

目标检测FPS怎么算目标检测roi_取整_03

这样之后在每一块(称为bin)中做max pooling，可以得到下图的结果。

目标检测FPS怎么算目标检测roi_像素点_04

动图gif如下：

目标检测FPS怎么算目标检测roi_双线性插值_05

这样就可以将任意大小bbox转成2x2表示的feature。

ROI Pooling需要取整，这样的取整操作进行了两次，

第一次是得到bbox在feature map上的坐标时。region proposal的xywh通常是小数，但是为了方便操作会把它整数化。例如：原图上的bbox大小为665x665，经backbone后，spatial scale=1/32。因此bbox也相应应该缩小为665/32=20.78，但是这并不是一个真实的pixel所在的位置，因此这一步会取为20。0.78的差距反馈到原图就是0.78x32=25个像素的差距。如果是大目标这25的差距可能看不出来，但对于小目标而言差距就比较巨大了

第二次是将整数化后的边界区域平均分割成 k x k 个单元，对每一个单元的边界进行整数化。