一键下载Meta最大视频分割数据集！含50.9K真实世界视频，覆盖47个国家

原创

HyperAI超神经 2024-08-25 14:50:32 ©著作权

文章标签 数据集人工智能开源生物医药深度学习 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者HyperAI超神经的原创作品，请联系作者获取转载授权，否则将追究法律责任

2023 年 4 月，Meta 发布 Segment Anything Model (SAM)，号称能够「分割一切」，这一颠覆传统计算机视觉 (CV) 任务的创新性成果引起了业内的广泛讨论，并被快速应用于医疗图像分割等垂直领域的研究中。日前，SAM 再升级，Meta 开源了 Segment Anything Model 2 (SAM 2)，成为计算机视觉领域的又一个划时代里程碑。

从图像分割跨越到视频分割，SAM 2 在实时提示分割方面展现出了卓越性能， 该模型将图像和视频的分割、跟踪功能引入到统一的模型中，只需在视频帧上输入提示（点击、框或掩码），就能精准识别并分割图像或视频中的任何对象，这种独特的零样本学习能力赋予了 SAM 2 极高的通用性，在医学、遥感、自动驾驶、机器人、伪装物体检测等领域展现出巨大的应用潜力。 Meta 对其充满信心：「我们相信，我们的数据、模型和见解将成为视频分割和相关感知任务的重要里程碑！」

确实如此，SAM 2 前脚上线，大家就迫不及待的用了起来，效果好到 Unbelievable！

在这里插入图片描述

图源：Carlos Santana

SAM 2 开源不到半个月，多伦多大学研究人员就将它用在医学图像和视频上，还顺便发表了一篇 paper！

在这里插入图片描述

论文原文：
https://arxiv.org/abs/2408.03322

在这里插入图片描述

多伦多大学研究图源：Marktechpost AI Research News

模型需要数据来训练，SAM 2 也不例外。Meta 在同一时间还开源了用于训练 SAM 2 的大规模数据集 SA-V， 据悉，该数据集可用于训练、测试和评估通用对象分割模型 (generic object segmentation models)，HyperAI超神经已经在官网上线了「SA-V：Meta 构建最大的视频分割数据集」，一键即可下载！

在这里插入图片描述

SA-V 视频分割数据集直接下载：
https://go.hyper.ai/e1Tth

更多高质量数据集下载：
https://go.hyper.ai/P5Mtc

超越现有视频分割数据集！SA-V 涵盖多主题、多场景

Meta 研究人员使用数据引擎收集了一个大型且多样化的视频分割数据集 SA-V，如下表所示，该数据集包含 50.9K 个视频，642.6K 个 masklets (由 SAM 2 辅助手动注释 191K、由 SAM 2 自动生成 452K )， 与其他常见的视频对象分割 (VOS) 数据集相比，SA-V 在视频、masklets 和 masks 数量上均有大幅提升，其标注的 masks 数量是现有任何 VOS 数据集的 53 倍， 为未来的计算机视觉工作提供了丰富的数据资源。

在这里插入图片描述

SA-V与开源VOS数据集在视频数量、时长

掩码片段数量、掩码数量、帧数量和消失率方面的比较

SA-V Manual 仅含手动标注的标签
SA-V Manual+Auto 将手动标注的标签与自动生成的掩码片段结合

据了解，SA-V 包含的视频数量超过了现有的 VOS 数据集，平均视频分辨率为 1401×1037 pixels，收集的视频涵盖各种日常场景， 包括 54% 的室内场景视频和 46% 的室外场景视频，平均时长为 14 秒。此外，这些视频的主题也多种多样， 包括位置、物体、场景等，Masks 的范围从大型物体（如建筑物）到细粒度的细节（如室内装饰）。

在这里插入图片描述

SA-V 数据集中的视频

如下图所示，SA-V 中的视频覆盖 47 个国家， 并由不同的参与者拍摄，图 a 可得，与 DAVIS、MOSE 和 YouTubeVOS 掩码大小分布相比，SA-V 小于 0.1 的归一化掩码面积 (normalized mask area) 超过 88%。

数据集分布(a)掩码片段大小分布 (b)视频的地理多样性 (c)录制视频工作者的自我报告人口统计

研究人员根据视频作者及其地理位置对 SA-V 数据集进行划分，确保数据中的相似对象有最小重叠 (minimal overlap)。 为了创建 SA-V 验证集和 SA-V 测试集，在选择视频时，研究人员聚焦具有挑战性的场景，要求标注者识别快速移动、被其他物体遮挡、具有消失/重现模式的目标。最终，SA-V 验证集中有 293 个 masklets 和 155 个视频，SA-V 测试集中有 278 个掩码片段和 150 个视频。此外，研究人员还使用内部可用的授权视频数据进一步扩充训练集。

SA-V 视频分割数据集直接下载：
https://go.hyper.ai/e1Tth

以上就是 HyperAI超神经本期为大家推荐的数据集，如果大家看到优质的数据集资源，也欢迎留言或投稿告诉我们哦！
更多高质量数据集下载：
https://go.hyper.ai/P5Mtc