字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。

关注 AIGC_Studio

文章目录

相关链接
论文阅读
摘要
方法
效果展示
与Depth Anything V1在细粒度细节上的比较
与 Depth Anything V1 的稳健性比较
与 Marigold 和 Geowizard 的比较
视频深度可视化
数据覆盖范围
结论

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。

原创

AIGC_Studio 2024-07-02 12:01:59 博主文章分类：深度学习 ©著作权

文章标签 人工智能 AIGC 计算机视觉细粒度公众号 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者AIGC_Studio的原创作品，请联系作者获取转载授权，否则将追究法律责任

字节发布Depth Anything V2深度模型。比 Depth Anything V1 更精细的细节。与基于 SD 构建的模型相比效率显著更高（快了10倍以上）且更准确。提供了不同规模的模型（参数从25M到1.3B不等），以支持各种应用场景。分别针对室内和室外场景发布了三个尺度的六种度量深度模型。

通过三个关键实践产生了更精细和更鲁棒的深度预测：

用合成图像取代所有标注的真实图像，
扩大教师模型的容量，
通过大规模伪标注的真实图像作为桥梁来教授学生模型。

Depth Anything V2基于595K张合成标记图像和62M+张真实未标记图像进行训练，提供最强大的单目深度估计(MDE)模型。

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_细粒度

相关链接

论文地址：https://arxiv.org/abs/2406.09414

代码地址：https://github.com/DepthAnything/Depth-Anything-V2

试用链接：https://huggingface.co/spaces/Depth-Anything/Depth-Anything-V2

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_人工智能_02

论文阅读

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_AIGC_03

摘要

这项工作提出了 Depth Anything V2。我们不追求花哨的技术，而是旨在揭示关键发现，为构建强大的单目深度估计模型铺平道路。值得注意的是，与 V1 相比，此版本通过三个关键实践产生了更精细、更稳健的深度预测：

用合成图像替换所有标记的真实图像；
扩大我们的教师模型的容量
通过大规模伪标记真实图像的桥梁教授学生模型。

与基于稳定扩散构建的最新模型相比，我们的模型效率更高（速度快 10 倍以上）且更准确。我们提供不同规模的模型（从 25M 到 1.3B 参数不等）以支持广泛的场景。得益于它们强大的泛化能力，我们使用度量深度标签对它们进行微调以获得我们的度量深度模型。除了我们的模型之外，考虑到当前测试集中的多样性有限和频繁的噪声，我们构建了一个具有稀疏深度注释的通用评估基准，以方便未来的研究。

方法

我们首先在纯合成图像上训练一个初始的最大教师模型（基于 DINOv2-Giant）。然后，它为大规模未标记的真实图像生成高质量的伪标签。最后，仅在伪标记的真实图像上训练学生模型。

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_细粒度_04

效果展示

与Depth Anything V1在细粒度细节上的比较

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_人工智能_05

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_计算机视觉_06

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_细粒度_07

与 Depth Anything V1 的稳健性比较

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_计算机视觉_08

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_人工智能_09

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_计算机视觉_10

与 Marigold 和 Geowizard 的比较

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_人工智能_11

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_细粒度_12

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_细粒度_13

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_AIGC_14

视频深度可视化

注意： Depth Anything V2是一种基于图像的深度估计方法，我们使用视频只是为了更好地展示我们的优势。

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_AIGC_15

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_计算机视觉_16

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_人工智能_17

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_人工智能_18

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_计算机视觉_19

数据覆盖范围

我们使用595K张合成图像来训练初始最大的教师模型，并使用62M+张真实伪标记图像来训练最终的学生模型。

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。_计算机视觉_20

结论

在这项工作中，我们提出了 Depth Anything V2，这是一种更强大的单目深度估计基础模型。它能够

提供稳健且细粒度的深度预测；
支持具有各种模型大小（从 25M 到 1.3B 参数）的广泛应用
作为一种有前途的模型初始化，可以轻松微调到下游任务。

我们揭示了关键的发现，为构建强大的 MDE 模型铺平了道路。此外，考虑到现有测试集中的多样性较差和噪声丰富，我们构建了一个多功能评估基准 DA-2K，涵盖了具有精确且具有挑战性的稀疏深度标签的各种高分辨率图像。

赞
收藏
评论
分享
举报

上一篇：阿里提出MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

下一篇：海报设计师的福音来了，微软联合清华北大提出Glyph-ByT5-v2，可支持多国语言图文海报生成，效果惊艳！

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册