先从目标检测的一篇 survey 开始挖:
"3D Object Detection from Images for Autonomous Driving: A Survey"

数据集:

KITTI

有图像数据和雷达数据,有 3D 目标检测的 benchmark。
可以看看这篇博客对 KITTI 的介绍。

判断一个框是否匹配用 IoU(交除以并)> K(0.7 in KITTI) 来判断。

T, F 表示本来是对的or错的,P, N 表示判断为对的或错的
\(precision = \frac{TP}{TP+FP}\)
\(recall = \frac{TP}{TP+FN}\)

依次求每个样本,按置信度排序,得到累计的 precision 和 recall,由此得 P-R 曲线。

KITTI 中,用 AP|R40,详见:https://zhuanlan.zhihu.com/p/594184522

遍历 \(r \in \{1/40,2/40,...,1\}\),取 recall \(\ge r\)

该方法为什么好笔者不想去探讨。

nuScenes

LiDAR+Radar+相机

好像可以做 occupancy,之后用的时候再详细了解下。

framework

result-lifting

先用 2D 特征估计 2D 位置,朝向、维度,用这些得到 3D 的结果。