总述
深度估计是一种从图像中估计每个像素相对于相机的距离的任务。深度估计的性能通常使用以下几个指标来衡量¹²:
- RMSE(Root Mean Squared Error):均方根误差,表示预测深度和真实深度之间的平均差值的平方根。RMSE 越小,表示误差越小,性能越好。
- AbsRel(Absolute Relative Error):绝对相对误差,表示预测深度和真实深度之间的绝对差值与真实深度的比值的平均值。AbsRel 越小,表示误差越小,性能越好。
- Log10(Logarithmic Error):对数误差,表示预测深度和真实深度之间的对数差值的绝对值的平均值。Log10 越小,表示误差越小,性能越好。
- δ1, δ2, δ3(Thresholded Accuracy):阈值准确率,表示预测深度和真实深度之间的最大比值在某个阈值范围内的像素占比。δ1 的阈值是 1.25,δ2 的阈值是 ,δ3 的阈值是 。δ1, δ2, δ3 越大,表示准确率越高,性能越好。
这些指标中,没有哪一个是绝对重要或不重要的,它们都反映了深度估计的不同方面。一般来说,RMSE 和 AbsRel 更关注全局的误差水平,Log10 更关注局部的误差分布,δ1, δ2, δ3 更关注精确匹配的程度。不同的应用场景可能有不同的评价标准和偏好,因此需要根据具体的需求和目标来选择合适的指标。
(1) Depth Estimation | Papers With Code. https://paperswithcode.com/task/depth-estimation. (2) Comparison of monocular depth estimation methods using .... https://www.sciencedirect.com/science/article/abs/pii/S1077314219301663. (3) Title: LiDARTouch: Monocular metric depth estimation with a .... https://arxiv.org/abs/2109.03569.
阈值准确率
阈值准确率是一种衡量深度估计的指标,它表示预测深度和真实深度之间的最大比值在某个阈值范围内的像素占比。具体来说,对于每个像素 i,我们定义最大比值为 ,其中是预测深度,是真实深度。然后,我们定义阈值准确率为满足最大比值小于等于某个阈值 t 的像素的数量除以总像素数量。通常,我们使用三个不同的阈值 t = 1.25, , 来计算三个阈值准确率 δ1, δ2, δ3。阈值准确率越大,表示预测深度越接近真实深度,性能越好。阈值准确率可以反映深度估计的精确匹配的程度,也可以避免一些极端误差的影响。 来计算三个阈值准确率 δ1, δ2, δ3。阈值准确率越大,表示预测深度越接近真实深度,性能越好。阈值准确率可以反映深度估计的精确匹配的程度,也可以避免一些极端误差的影响。
举个例子--阈值准确率
假设我们有一个 2x2 的图像,它的真实深度和预测深度分别是:
真实深度 | 预测深度 |
1 | 1.2 |
2 | 1.8 |
3 | 4 |
4 | 3.5 |
那么,我们可以计算每个像素的最大比值,以及它们是否满足不同的阈值条件,如下表所示:
最大比值 | 阈值 1.25 | 阈值 1.25^2 | 阈值 1.25^3 |
max(1/1.2, 1.2/1) = 1.2 | 是 | 是 | 是 |
max(2/1.8, 1.8/2) = 1.11 | 是 | 是 | 是 |
max(3/4, 4/3) = 1.33 | 是 | 是 | 否 |
max(4/3.5, 3.5/4) = 1.14 | 是 | 是 | 是 |
因此,我们可以得到阈值准确率为:
- δ1 = 4/4 = 100%
- δ2 = 4/4 = 100%
- δ3 = 3/4 = 75%
这个例子说明了阈值准确率是如何计算的,以及不同的阈值是如何影响结果的。