字节发布Depth Anything V2深度模型。比 Depth Anything V1 更精细的细节。与基于 SD 构建的模型相比效率显著更高(快了10倍以上)且更准确。提供了不同规模的模型(参数从25M到1.3B不等),以支持各种应用场景。分别针对室内和室外场景发布了三个尺度的 六种度量深度模型。

通过三个关键实践产生了更精细和更鲁棒的深度预测:

  1. 用合成图像取代所有标注的真实图像,
  2. 扩大教师模型的容量,
  3. 通过大规模伪标注的真实图像作为桥梁来教授学生模型。

Depth Anything V2基于595K张合成标记图像和62M+张真实未标记图像进行训练,提供最强大的单目深度估计(MDE)模型。

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_细粒度

相关链接

论文地址:https://arxiv.org/abs/2406.09414

代码地址:https://github.com/DepthAnything/Depth-Anything-V2

试用链接:https://huggingface.co/spaces/Depth-Anything/Depth-Anything-V2

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_人工智能_02

论文阅读

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_AIGC_03

摘要

这项工作提出了 Depth Anything V2。我们不追求花哨的技术,而是旨在揭示关键发现,为构建强大的单目深度估计模型铺平道路。值得注意的是,与 V1 相比,此版本通过三个关键实践产生了更精细、更稳健的深度预测:

  • 用合成图像替换所有标记的真实图像;
  • 扩大我们的教师模型的容量
  • 通过大规模伪标记真实图像的桥梁教授学生模型。

与基于稳定扩散构建的最新模型相比,我们的模型效率更高(速度快 10 倍以上)且更准确。我们提供不同规模的模型(从 25M 到 1.3B 参数不等)以支持广泛的场景。得益于它们强大的泛化能力,我们使用度量深度标签对它们进行微调以获得我们的度量深度模型。除了我们的模型之外,考虑到当前测试集中的多样性有限和频繁的噪声,我们构建了一个具有稀疏深度注释的通用评估基准,以方便未来的研究。

方法

我们首先在纯合成图像上 训练一个初始的最大教师模型(基于 DINOv2-Giant)。然后,它为大规模未标记的真实图像生成高质量的伪标签。最后,仅在伪标记的真实图像上训练学生模型。

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_细粒度_04

效果展示

与Depth Anything V1在细粒度细节上的比较

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_人工智能_05

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_计算机视觉_06

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_细粒度_07

与 Depth Anything V1 的稳健性比较

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_计算机视觉_08

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_人工智能_09

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_计算机视觉_10

与 Marigold 和 Geowizard 的比较

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_人工智能_11

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_细粒度_12

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_细粒度_13

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_AIGC_14

视频深度可视化

注意: Depth Anything V2是一种基于图像的深度估计方法,我们使用视频只是为了更好地展示我们的优势。

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_AIGC_15

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_计算机视觉_16

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_人工智能_17

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_人工智能_18

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_计算机视觉_19

数据覆盖范围

我们使用595K张合成图像来训练初始最大的教师模型,并使用62M+张真实伪标记图像来训练最终的学生模型。

字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。_计算机视觉_20

结论

在这项工作中,我们提出了 Depth Anything V2,这是一种更强大的单目深度估计基础模型。它能够

  • 提供稳健且细粒度的深度预测;
  • 支持具有各种模型大小(从 25M 到 1.3B 参数)的广泛应用
  • 作为一种有前途的模型初始化,可以轻松微调到下游任务。

我们揭示了关键的发现,为构建强大的 MDE 模型铺平了道路。此外,考虑到现有测试集中的多样性较差和噪声丰富,我们构建了一个多功能评估基准 DA-2K,涵盖了具有精确且具有挑战性的稀疏深度标签的各种高分辨率图像。