【深度学习:计算机视觉】计算机视觉的最佳数据集 [行业细分]_人工智能


【深度学习:计算机视觉】计算机视觉的最佳数据集 [行业细分]

  • 什么是机器学习数据集 (ML)?
  • 什么是分类数据集?
  • 我应该使用合成数据来训练我的机器学习和计算机模型吗?
  • 在哪里可以找到机器学习的数据集?
  • 保险机器学习数据集
  • 汽车损坏评估数据集
  • 体育分析数据集
  • KTH(斯德哥尔摩 KTH 皇家理工学院)多视图足球数据集 I 和 II
  • 数据集
  • 合成孔径雷达(SAR)、高空、卫星数据集
  • xView
  • xView3
  • 欧盟哥白尼星座
  • 智能城市和自动驾驶汽车 ML 数据集
  • BDD10万
  • KITTI 视觉基准套件
  • 零售商和制造商的数据集
  • RPC-数据集项目
  • 医学影像数据集
  • 癌症影像档案 (TCIA)
  • NIH 胸部 X 光检查(在 Kaggle 上)
  • 开放数据集聚合器
  • Kaggle
  • OpenML



图像和视频数据集注释对于训练用于计算机视觉的机器学习 (ML) 模型至关重要。挑战之一是找到尽可能好、质量最高的数据集进行注释,以开始训练模型。

好消息是,您可以使用数十个免费且开源的基于图像和视频的公共数据集,用于机器学习模型。

是否使用公共数据集取决于您的项目目标和您试图解决的问题。您的项目可能需要专有的内部数据或商业专家数据集来解决特定问题。

但是,在许多用例中,已经注释的公共开源数据集非常适合训练计算机视觉模型。

保险、医疗保健、智慧城市、零售、体育等数十个行业的组织已经在使用公共数据集来训练机器学习模型并解决与图像和视频相关的大数据挑战。

在这篇文章中,我们将仔细研究用于医疗保健和保险等众多领域的机器学习模型的最佳开源和免费数据集,并回顾在为您的项目找到合适的数据集后应采取的措施。

什么是机器学习数据集 (ML)?

用于训练机器学习 (ML)、人工智能 (AI) 和其他基于算法的模型的数据集可以是任何东西,从电子表格到视频存储库。数据集只是一种说法,即您拥有一组数据,而不管其格式如何。

对于计算机视觉 (CV) 和 ML 模型,数据集通常包含数千张图像或视频,或两者兼而有之。训练基于 ML 的模型来解决特定问题意味着确保您以最合适的格式选择了正确类型的图像或视频,并尽可能使用最高质量的注释和标签来生成所需的结果。

劣质数据或数据集中成千上万的不相关图像或视频会对项目产生负面影响。ML 项目通常会在紧迫的时间内完成。使用公共数据集可以节省时间,因为数据清理任务要少得多,因此是启动和运行概念验证 (POC) 项目的捷径。

不过,您需要确保您要使用的任何数据集中包含的图像或视频与您的项目目标相关。您需要确保注释、标签和元数据的质量较高,并具有足够的模式和对象类型。

同样重要的是,要有足够多的图像或视频,以减少偏差,并在将这些数据输入 ML 模型后得出所需的答案。数据集还应包含不同条件下的各种图像或视频,如光线、黑暗、白天、夜晚、阴影等。更高质量的数据能产生更好的 ML 和 CV 项目成果。

什么是分类数据集?

分类数据集是用于在一系列选项中对特定对象进行分类的数据集。在图像分类中,图像是输入,输出是应用于该图像中的一个或多个对象的标签。

图像分类数据集用于训练基于机器学习或其他算法生成的模型,以高度准确地识别您正在寻找的对象。

例如,如果您要查找标识特定品牌和型号的汽车的图像,则需要一个数据集,其中包含包含该汽车的足够图像,以及数百或数千张非该品牌或型号的汽车图像。

在这种情况下,当您需要 ML 模型来识别特定类型的汽车时,向 ML 模型显示数千张拖拉机图像将是浪费时间。因此,为您的 ML 项目选择正确的数据集非常重要。

我应该使用合成数据来训练我的机器学习和计算机模型吗?

ML、AI 和计算机视觉模型是数据密集型的。即使你使用微模型来训练它们,当涉及到大规模解决问题时,你也需要大量的数据。

但在某些用例中,这根本不可能。有多少不经常发生甚至不再存在的事物的图像和视频已经进入了数据集?答案是“不多”。不足以准确、无偏见地训练基于 ML 的模型,当模型没有足够的数据可供学习时,还会出现许多其他问题。

在此类边缘情况下,机器学习团队需要合成数据。

有关更多信息,请参阅综合训练数据简介

合成数据解决了难以找到的数据集的问题,例如行人影子、罕见疾病或车祸的图片。合成数据是人造的图像和视频,当边缘情况需要数十万个图像或视频,但现实中只存在几千个时,合成数据非常有用。

计算机生成图像 (CGI)、3D 游戏引擎(例如 Unity 和 Unreal)以及生成对抗网络 (GAN) 是解决此问题的理想解决方案。当然,用于创建这些图像或视频的工具取决于您的预算以及创建合成数据的时间。您还可以购买定制或现成的合成数据,这些数据应该可以填补您的成像数据集空白并帮助更有效地训练 ML 模型。

现在,让我们看一下我们找到的数十种用于采购机器学习开源公共数据集的选项。

在哪里可以找到机器学习的数据集?

为了使这些数据集源更容易找到,我们根据部门细分了此列表:

  • 保险
  • 运动的
  • SAR(合成孔径雷达)
  • 智能城市和自动驾驶汽车
  • 零售商和制造商
  • 医疗保健
  • 开放数据集聚合器

让我们深入了解一下。 。 。

保险机器学习数据集

汽车损坏评估数据集

Kaggle 是查找高质量数据集(平衡和不平衡)的最佳地点之一,这里有数十个图像和视频文件可供免费下载。 Kaggle 是一个数据科学社区,为该领域的专业人士提供数百个资源,其中包括开源数据集,使其成为开放数据集聚合器。

这些数据集之一非常适合汽车保险数据分析师和数据科学家。它是一个包含 1,500 张独特 RGB 图像(224 x 224 像素)的文件夹,分为训练和验证子集。它包含诸如前照灯损坏、玻璃破碎、自卸车凹痕以及所有最常见的汽车损坏类别等分类。

【深度学习:计算机视觉】计算机视觉的最佳数据集 [行业细分]_数据_02


汽车损坏评估数据集

体育分析数据集

KTH(斯德哥尔摩 KTH 皇家理工学院)多视图足球数据集 I 和 II

该数据集包含数千张足球运动员在超级联赛职业比赛期间的图像。它包括一个包含具有 2D 地面真实姿势图像的数据集,以及另一个具有 2D 和 3D 地面真实姿势图像的数据集。此类数据集可以帮助训练基于人体姿势估计 (HPE) 技术的计算机视觉模型。

它包括大约 7,000 张图像、数十个带注释的关节和玩家、每帧的正交相机矩阵以及校准和同步的图像。

该数据集的开源提供商 KTH 皇家理工学院表示,它不能用于商业目的,只能用于学术和研究。

数据集

OpenTTGames 数据集是为了评估乒乓球比赛的计算机视觉任务而创建的。它旨在帮助负责乒乓球项目的机器学习科学家和数据运营经理评估以下内容:“球检测、人类语义分割、桌子和记分板以及快速游戏内事件识别。”

它包括 5 个长度在 10 到 25 分钟之间的视频(已提供完整注释和标记文件),以及 7 个简短的测试/培训注释视频。

合成孔径雷达(SAR)、高空、卫星数据集

对于需要高空卫星图像(如合成孔径雷达 (SAR) 拍摄的图像)的机构来说,开放源码图像数据集是最佳选择之一。以下是一些最有价值的注释卫星图像数据集来源:

xView

xView 是最大的高空和卫星图像公开数据集之一。xView 包含 100 多万个对象实例、60 个类别和 0.3 米的分辨率。

xView3

xView3 是一个数据集,包含感兴趣海域的大约 1000 个场景。每个场景由两幅SAR图像(VV、VH)组成;每个场景还包括五个辅助图像:测深、风速、风向、风质量和陆地/冰罩。

xView3 海事图像数据集源自欧洲航天局 (ESA) 哥白尼 Sentinel-1 任务的合成孔径雷达 (SAR) 图像,该图像取自两颗极轨卫星,图像在各种天气条件下、每天和夜晚。分辨率为 20 米,它是一个有用的数据集,可用于检测船舶免受海杂波影响,同时也可用于识别近岸和海洋表面特征。

欧盟哥白尼星座

哥白尼是欧盟 (EU) 资助的项目,该项目的卫星群每天拍摄数千张照片,建立一个包含海洋、陆地和空中图像的庞大数据库。因此,Copernicus 是世界上最大的基于图像的数据集创建者之一,每天生成 16 TB 的数据。

哥白尼制作的大部分图像“在自由、完整和开放的基础上向世界各地的任何公民和任何组织提供和访问”。

智能城市和自动驾驶汽车 ML 数据集

BDD10万

Berkeley DeepDrive 是一个用于异构多任务学习的多样化且广泛的数据集。它包含从 50,000 次汽车旅程中收集的超过 100,000 个驾驶视频。每个时长 40 秒,帧率 30 帧,总共超过 1 亿帧。

该数据集中的视频包括城市街道、住宅区、高速公路以及各种天气状况。该数据集包括:“车道检测、对象检测、语义分割、实例分割、全景分割、多对象跟踪、分割跟踪等。”

【深度学习:计算机视觉】计算机视觉的最佳数据集 [行业细分]_深度学习_03


BDD100K 数据集

KITTI 视觉基准套件

KITTI 基准数据集包含一套使用自动驾驶平台构建的视觉任务。完整的基准测试包含许多任务,例如立体、光流、视觉里程计等。该数据集包含对象检测数据集,包括单目图像和边界框。该数据集包含 7481 个用 3D 边界框注释的训练图像。该项目由卡尔斯鲁厄理工学院和芝加哥丰田理工学院开发,一辆汽车在一座中等城市中行驶,配备了多个摄像头和传感器。

零售商和制造商的数据集

RPC-数据集项目

RPC数据集项目是一个大规模、细粒度的零售产品结账数据集,是产品图像数量和产品类别最广泛的数据集之一。创建该数据集是为了解决自动结账 (ACO) 时图像与产品数据库对齐的问题。

测试数据集包含 24,000 张图像,还有 6,000 张验证图像,以及 53,739 张训练数据集图像。图像中有几层注释、标签和超过 300,000 个对象。

## Zalando 时尚 MNIST(在 Kaggle 上)
Zalando 服装图像的 Zalando Fashion MNIST 数据集 — 包含 60,000 个示例的训练集和 10,000 个带注释和标记的时尚图像的测试集。每个示例都是一个 28x28 灰度图像,与 10 个类别的标签相关联。

MNIST 数据库在 AI/ML 和计算机视觉社区中很受欢迎,用于验证训练数据集。在这种情况下,它对于需要使用时尚图像数据集的 CV 项目非常有用。

如需更多时尚和零售数据集,这里列出了 12 个用于计算机视觉模型的免费零售数据集。

医学影像数据集

癌症影像档案 (TCIA)

癌症影像档案 (TCIA) 是一项对癌症图像进行去识别化(通过删除患者数据)并提供免费下载的服务。医院和其他医疗服务提供者可以将数据上传到这个公共研究项目。

借助 TCIA,医疗保健公司和研究人员可以通过多种方式访问数千个癌症数据集,包括通过门户和 API。

NIH 胸部 X 光检查(在 Kaggle 上)

美国国立卫生研究院胸部 X 射线数据集包含来自 30,000 多名患者的 112,000 张胸部 X 射线图像。使用自然语言处理 (NLP) 对相关放射学报告中的文本挖掘疾病分类进行注释,准确率高达 90%。

【深度学习:计算机视觉】计算机视觉的最佳数据集 [行业细分]_人工智能_04


NIH 胸部 X 光数据集

最后,这里列出了用于机器学习模型的流行开放数据集聚合器。

开放数据集聚合器

Kaggle

Kaggle 是一个由 ML 从业者和学生组成的社区,包含来自数十个行业和垂直领域的数千个开源数据集。您需要深入搜索可用于您的项目的图像或视频特定数据集,具体取决于您的特定项目目标。对于机器学习和计算机视觉社区来说,它是宝贵的资源和研究工具。

OpenML

OpenML 是一个开放平台,用于共享和查找基于机器学习、图像和视频的数据集。它是开放且免费的,可供任何人、任何目的使用。平台上的每个数据集都采用统一格式,包含丰富的元数据,适合上传到任何工具,并训练任何类型的机器学习、人工智能或计算机视觉模型。

我们来了,开源图像和视频数据集的广泛列表!

任何人和任何组织都可以免费使用,几乎可以用于任何目的,在大多数情况下包括商业目的。我们希望您发现它很有用!