vit为什么在小目标检测中表现不佳目标检测小目标识别

转载

mob6454cc7acbf7 2024-04-21 18:51:31

文章标签 vit为什么在小目标检测中表现不佳目标检测计算机视觉深度学习语义信息 文章分类 计算机视觉人工智能

1. 小物体指的是图像中小于32×32像素的物体（绝对定义）或与背景和其他物体相比占图像比例较小的物体（相对定义）。

2. 小目标由于其固有的小分辨率，需要强大的语义信息（用于分类任务）和准确的空间信息（用于定位任务）。

3. 小目标定位精度会受到空间信息衰减的影响。

4. 给出小目标检测和跟踪的三种思路：1) 利用目标的上下文信息，寻找视频图像中小目标之间的语义和空间联系；2）对小目标进行超分辨率处理、边缘增强（edge enhancement）来增大小目标物体的特征；3) 提取多尺度特征，平衡语义信息和空间信息，使不同深度的特征具有最适合检测的对象大小。

5. 一些现有方法，引入强大的目标关联策略，以便将不同视频帧中的目标关联起来。然而，这些方法没有显式地对“坏”检测结果建模，因此它们可能被外观和运动相似度高的对象混淆。其次，它们的注意力集中在不同的特征和检测对象的度量上，这些方法在正常场景有较高的精度，但仍容易受到噪声检测（noisy detections）的影响。再者，还有一些工作采用了更精确的目标检测器，试图减少这些噪声检测，然而其性能仍然受到混淆检测（confusing detections）的影响，如高度重叠的目标。

6. 另外，1) 噪声目标检测更可能出现在前几帧已经有一些噪声检测的区域；2) 如果一个群体中与他人走得很近或者着装相似的人之间存在混淆检测，那么在这些人在后续帧中更容易出现混淆检测。

7. 通常，多尺度方法侧重于将深层特征的语义信息转移到浅层特征，在一定程度上忽略了空间信息。然而，语义信息和空间信息对于目标检测任务同样重要，并且还应该使用最适合的特征来检测不同大小的目标。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。