本文编译自Forbes,作者Sam Abuelsamid
直到现在,自动驾驶数据对于很多研发公司来说还是一个严守的秘密。自动驾驶汽车每天可以收集4TB或更多的传感器原始数据。今年3月,Aptiv成为自动驾驶系统开发大公司中第一个公开发布传感器数据的公司。6月16日,2019年计算机视觉和模式识别大会(CVPR)在美国长滩开启。Waymo和Argo AI也在此次会议中发布了数据集。
自动驾驶产生的实时数据能让车辆有效地了解周围的环境,并在真实世界中行驶。但只有部分数据对系统的开发和改进真正有用。在城市街道的自动驾驶测试中,自动驾驶汽车内的工程师和技术人员们会记录下有趣或有挑战性的场景。
测试结束时,所有的数据都会从车辆导入数据中心,接着对有用的数据进行分析和标记。对于现代自动驾驶系统训练的核心——机器学习系统而言,原始数据本身没有多大价值。数据中令人感兴趣的对象包括行人、骑自行车的人、动物、交通信号等等。任何传感器数据被用于训练或测试人工智能系统之前,所有对象都需要手工标记和标注,以便于系统理解。
过去,研究人员创建和发布的数据集相对较小。这些数据集的数据来源也非常有限,通常仅限于摄像头数据。Aptiv发布的NuScenes数据集除了图像外,还包括激光雷达和雷达数据。
Waymo和Argo最近发布的自动驾驶数据集有了很大突破。Waymo称其数据集包含了3000个场景,是Aptive的NuScenes数据集的3倍,摄像头和激光雷达之间的信息同步也更好。Waymo还提供了5个激光雷达传感器的数据,而NuScenes数据集中只有1个。
福特自动驾驶开发合作伙伴Argo AI的Argoverse数据集与Waymo有些不同。虽然它也包含激光雷达和摄像头数据,但它只覆盖了在迈阿密和匹兹堡记录的113个场景,包括Argo AI使用的所有9个摄像头以及2个激光雷达传感器的图像,其中标注的目标超过10000个。
Argo AI的Argoverse数据集的特别之处在于,它是第一个包含高清地图数据的数据集。Argo AI目前在其运营区域打造了自己的高清地图。这些数据包含匹兹堡和迈阿密290公里的车道地图,如位置、连接、交通信号、海拔等信息。Argo AI在其地图解决方案中大力宣传的一个功能就是它优化处理的能力:能够精确地知道在哪里寻找交通标志和信号,不必扫描整个场景来寻找。
所有这三个数据集都在不同的位置提供了真实世界有价值的新信息,研究人员可以利用这些信息来帮助开发车辆感知和预测周围环境的新算法。