#通过数据一步步构建高效的自动驾驶算法
下一代自动驾驶技术期望依赖于智能感知、预测、规划和低级别控制之间的专门集成和交互。自动驾驶算法性能的上限一直存在巨大的瓶颈,学术界和业界一致认为,克服瓶颈的关键在于以数据为中心的自动驾驶技术。AD仿真、闭环模型训练和AD大数据引擎近期已经获得了一些宝贵的经验。然而,对于如何构建高效的以数据为中心的AD技术来实现AD算法的自进化和更好的AD大数据积累,缺乏系统的知识和深刻的理解。为了填补这一研究空白,这里将密切关注最新的数据驱动自动驾驶技术,重点是自动驾驶数据集的全面分类,主要包括里程碑、关键特征、数据采集设置等。此外我们从产业前沿对现有的基准闭环AD大数据pipeline进行了系统的回顾,包括闭环框架的过程、关键技术和实证研究。最后讨论了未来的发展方向、潜在应用、局限性和关注点,以引起学术界和工业界的共同努力,推动自动驾驶的进一步发展。
总结来说,主要贡献如下:
- 介绍了第一个按里程碑代、模块化任务、传感器套件和关键功能分类的自动驾驶数据集综合分类法;
- 基于深度学习和生成人工智能模型,对最先进的闭环数据驱动自动驾驶pipeline和相关关键技术进行系统回顾;
- 给出了闭环大数据驱动pipeline在自动驾驶工业应用中如何工作的实证研究;
- 讨论了当前pipeline和解决方案的优缺点,以及以数据为中心的自动驾驶未来的研究方向。
SOTA自动驾驶数据集:分类和发展
自动驾驶数据集的演变反映了该领域的技术进步和日益增长的雄心。20世纪末的早期进展院的AVT研究和加州大学伯克利分校的PATH计划,为基本的传感器数据奠定了基础,但受到时代技术水平的限制。在过去的二十年里,在传感器技术、计算能力和复杂的机器学习算法的进步的推动下,出现了重大的飞跃。2014年,美国汽车工程师学会(SAE)向公众公布了一个系统化的六级(L0-L5)自动驾驶系统,该系统得到了自动驾驶研发进展的广泛认可。在深度学习的推动下,基于计算机视觉的方法已经主导了智能感知。深度强化学习及其变体为智能规划和决策提供了至关重要的改进。最近,大型语言模型(LLM)和视觉语言模型(VLM)展示了它们强大的场景理解、驾驶行为推理和预测以及智能决策能力,为自动驾驶的未来发展开辟了新的可能性。
自动驾驶数据集的里程碑式发展
图2按照时间顺序展示了开源自动驾驶数据集的里程碑式开发。显著的进步导致主流数据集被分为三代,其特点是数据集的复杂性、数量、场景多样性和标注粒度都有了显著的飞跃,将该领域推向了技术成熟的新前沿。具体而言,横轴表示开发时间轴。每行的侧头包括数据集名称、传感器模态、合适的任务、数据收集地点和相关挑战。为了进一步比较不同世代的数据集,我们使用不同颜色的条形图来可视化感知和预测/规划数据集规模。早期阶段,即2012年开始的第一代,由KITTI和Cityscapes牵头,为感知任务提供了高分辨率图像,是视觉算法基准进度的基础。推进到第二代,NuScenes、Waymo、Argoverse 1等数据集引入了一种多传感器方法,将车载摄像头、高精地图(HD Map)、激光雷达、雷达、GPS、IMU、轨迹、周围物体的数据集成在一起,这对于全面的驾驶环境建模和决策过程至关重要。最近,NuPlan、Argoverse 2和Lyft L5显著提高了影响标准,提供了前所未有的数据规模,并培育了一个有利于尖端研究的生态系统。这些数据集以其庞大的规模和多模态传感器集成为特点,在开发感知、预测和规划任务的算法方面发挥了重要作用,为先进的End2End或混合自动驾驶模型铺平了道路。2024年,我们迎来了第三代自动驾驶数据集。在VLM、LLM和其他第三代人工智能技术的支持下,第三代数据集强调了行业致力于应对自动驾驶日益复杂的挑战,如数据长尾分布问题、分布外检测、角点案例分析等。
数据集采集、设置和关键功能
表1总结了具有高度影响力的感知数据集的数据采集和标注设置,包括驾驶场景、传感器套件和标注,我们报告了数据集场景下天气/时间/驾驶条件类别的总数,其中天气通常包括晴天/多云/雾天/下雨/雪/其他(极端条件);一天中的时间通常包括上午、下午和晚上;驾驶条件通常包括城市街道、主干道、小街、农村地区、高速公路、隧道、停车场等。场景越多样化,数据集就越强大。我们还报告了数据集收集的区域,表示为as(亚洲)、EU(欧洲)、NA(北美)、SA(南美)、AU(澳大利亚)、AF(非洲)。值得注意的是,Mapillary是通过AS/EU/NA/SA/AF/AF收集的,DAWN是从谷歌和必应图像搜索引擎收集的。对于传感器套件,我们研究了相机、激光雷达、GPS和IMU等。表1中的FV和SV分别是前视图相机和街景相机的缩写。360°全景摄像头设置,通常由多个前视图摄像头、罕见视图摄像头和侧视图摄像头组成。我们可以观察到,随着AD技术的发展,数据集中包含的传感器类型和数量正在增加,数据模式也越来越多样化。关于数据集标注,早期的数据集通常采用手动标注方法,而最近的NuPlan、Argoverse 2和DriveLM对AD大数据采用了自动标注技术。我们认为,从传统的手动标注到自动标注的转变是未来以数据为中心的自动驾驶的一大趋势。
对于预测和规划任务,我们在表2中总结了主流数据集的输入/输出分量、传感器套件、场景长度和预测长度。对于运动预测/预测任务,输入组件通常包括自车历史轨迹、周围代理历史轨迹、高精地图和交通状态信息(即交通信号状态、道路ID、停车标志等)。目标输出是自车和/或周围主体在短时间内的几个最可能的轨迹(例如前5或前10轨迹)。运动预测任务通常采用滑动时间窗口设置,将整个场景划分为几个较短的时间窗口。例如,NuScenes采用过去2秒的GT据和高精地图来预测下一个6秒的轨迹,而Argoverse 2采用历史5秒的地面真相和高精地图预测未来6秒的轨道。NuPlan、CARLA和ApoloScape是最受欢迎的规划任务数据集。输入组件包括自我/周围车辆历史轨迹、自我车辆运动状态和驾驶场景表示。虽然NuPlan和ApoloScape是在现实世界中获得的,但CARLA是一个模拟数据集。CARLA包含在不同城镇的模拟驾驶过程中拍摄的道路图像。每个道路图像都带有一个转向角,它表示保持车辆正常行驶所需的调整。规划的预测长度可以根据不同算法的要求而变化。
闭环数据驱动的自动驾驶系统
我们现在正从以前的软件和算法定义的自动驾驶时代转向新的鼓舞人心的大数据驱动和智能模型协同自动驾驶时代。闭环数据驱动系统旨在弥合AD算法训练与其现实世界应用/部署之间的差距。与传统的开环方法不同,在传统开环方法中,模型是在从人类客户驾驶或道路测试中收集的数据集上被动训练的,闭环系统与真实环境动态交互。这种方法解决了分布变化的挑战——从静态数据集学习的行为可能无法转化为真实世界驾驶场景的动态性质。闭环系统允许AV从互动中学习并适应新的情况,通过行动和反馈的迭代循环进行改进。
然而,由于几个关键问题,构建现实世界中以数据为中心的闭环AD系统仍然具有挑战性:第一个问题与AD数据收集有关。在现实世界的数据采集中,大多数数据样本是常见/正常驾驶场景,而弯道和异常驾驶场景的数据几乎无法采集。其次,需要进一步努力探索准确高效的AD数据自动标注方法。第三,为了缓解AD模型在城市环境中某些场景中表现不佳的问题,应该强调场景数据挖掘和场景理解。
SOTA闭环自动驾驶pipeline
自动驾驶行业正在积极构建集成的大数据平台,以应对大量AD数据积累带来的挑战。这可以被恰当地称为数据驱动自动驾驶时代的新基础设施。在我们对顶级AD公司/研究机构开发的数据驱动闭环系统的调查中,我们发现了几个共性:
- 这些pipeline通常遵循一个工作流循环,包括:(I)数据采集,(II)数据存储,(III)数据选择和预处理,(IV)数据标注,(V)AD模型训练,(VI)模拟/测试验证,以及(VII)真实世界部署。
- 系统内闭环的设计,现有的解决方案要么选择单独设置的“数据闭环”和“模型闭环”,要么分别设置不同阶段的周期:“研发阶段闭环”、“部署阶段闭环”。
- 之外,该行业还强调了真实世界AD数据集的长期分布问题以及处理角落案例时的挑战。特斯拉和英伟达是这一领域的行业先驱,其数据系统架构为该领域的发展提供了重要参考。
NVIDIA MagLev AV平台图3(左))遵循“收集→ 选择→ 标签→ 驯龙”作为程序,它是一个可复制的工作流程,可以实现SDC的主动学习,并在循环中进行智能标注。MagLev主要包括两条闭环pipeline。第一个循环是以自动驾驶数据为中心,从数据摄入和智能选择开始,通过标注和标注,然后是模型搜索和训练。然后对经过训练的模型进行评估、调试,并最终部署到现实世界中。第二个闭环是平台的基础设施支持系统,包括数据中心骨干和硬件基础设施。此循环包括安全的数据处理、可扩展的DNN和系统KPI、用于跟踪和调试的仪表板。它支持AV开发的全周期,确保在开发过程中不断改进和整合真实世界的数据和模拟反馈。
特斯拉自动驾驶数据平台(图3(右))是另一个具有代表性的AD平台,它强调使用大数据驱动的闭环pipeline来显著提高自动驾驶模型的性能。pipeline从源数据收集开始,通常来自特斯拉的车队学习、事件触发车端数据收集和阴影模式。收集到的数据将由数据平台算法或人类专家进行存储、管理和检查。无论何时发现角落案例/不准确性,数据引擎都将从现有数据库中检索并匹配与角落案例/不准确事件高度相似的数据样本。同时,将开发单元测试,以复制场景并严格测试系统的响应。之后,检索到的数据样本将由自动标注算法或人类专家进行标注。然后,标注良好的数据将反馈给AD数据库,数据库将被更新以生成用于AD感知/预测/规划/控制模型的新版本的训练数据集。经过模型训练、验证、仿真和真实世界测试,具有更高性能的新AD模型将发布并部署。
基于Generative AI的高保真AD数据生成与仿真
从真实世界采集的大多数AD数据样本都是常见/正常驾驶场景,其中我们在数据库中已经有大量类似的样本。然而,要从真实世界的采集中收集某种类型的AD数据样本,我们需要驾驶指数级的长时间,这在工业应用中是不可行的。因此,高保真自动驾驶数据生成和仿真方法引起了学术界的极大关注。CARLA是一款用于自动驾驶研究的开源模拟器,能够在用户指定的各种设置下生成自动驾驶数据。CARLA的优势在于其灵活性,允许用户创建不同的道路条件、交通场景和天气动态,这有助于全面的模型训练和测试。然而,作为模拟器,其主要缺点在于领域差距。CARLA生成的AD数据无法完全模拟真实世界的物理和视觉效果;真实驾驶环境的动态和复杂特征也没有被表现出来。
最近,世界模型以其更先进的内在概念和更有前景的性能,已被用于高保真度AD数据生成。世界模型可以被定义为一个人工智能系统,它构建其感知的环境的内部表示,并使用学习到的表示来模拟环境中的数据或事件。一般世界模型的目标是表示和模拟各种情况和互动,就像成熟的人类在现实世界中遇到的一样。在自动驾驶领域,GAIA-1和DriveDreamer是基于世界模型的数据生成的代表作。GAIA-1是一个生成型人工智能模型,通过将原始图像/视频以及文本和动作提示作为输入,实现图像/视频到图像/视频的生成。GAIA-1的输入模态被编码成统一的令牌序列。这些标注由世界模型内的自回归变换器处理,以预测后续的图像标注。然后,视频解码器将这些标注重建为具有增强的时间分辨率的连贯视频输出,从而实现动态和上下文丰富的视觉内容生成。DriveDreamer在其架构中创新地采用了扩散模型,专注于捕捉现实世界驾驶环境的复杂性。它的两阶段训练pipeline首先使模型能够学习结构化的交通约束,然后预测未来的状态,确保为自动驾驶应用程序量身定制的强大的环境理解。
自动驾驶数据集的自动标注方法
高质量的数据标注成功和可靠性是必不可少的。到目前为止,数据标注pipeline可以分为三种类型,从传统的手工标注到半自动标注,再到最先进的全自动标注方法,如图4所示AD数据标注通常被视为特定于任务/模型。工作流程从仔细准备标注任务和原始数据集的需求开始。然后,下一步是使用人工专家、自动标注算法或End2End大型模型生成初始标注结果。之后,标注质量将由人工专家或自动质量检查算法根据预定义的要求进行检查。如果本轮标注结果未能通过质量检查,它们将再次发送回标注循环并重复此标注作业,直到它们满足预定义的要求。最后,我们可以获得现成的标注AD数据集。
自动标注方法是闭环自动驾驶大数据平台缓解人工标注劳动密集、提高AD数据闭环循环效率、降低相关成本的关键。经典的自动标记任务包括场景分类和理解。最近,随着BEV方法的普及,AD数据标注的行业标准也在不断提高,自动标注任务也变得更加复杂。在当今工业前沿的场景中,3D动态目标自动标注和3D静态场景自动标注是两种常用的高级自动标注任务。
场景分类和理解是自动驾驶大数据平台的基础,系统将视频帧分类为预定义的场景,如驾驶场所(街道、高速公路、城市立交桥、主干道等)和场景天气(晴天、雨天、雪天、雾天、雷雨天等)。基于CNN的方法通常用于场景分类,包括预训练+微调CNN模型、多视图和多层CNN模型,以及用于改进场景表示的各种基于CNN的模型。场景理解超越了单纯的分类。它涉及解释场景中的动态元素,如周围的车辆代理、行人和红绿灯。除了基于图像的场景理解外,基于激光雷达的数据源,如SemanticKITTI,也因其提供的细粒度几何信息而被广泛采用。
三维动态物体自动标注和三维静态场景自动标注的出现是为了满足广泛采用的纯电动汽车感知技术的要求。Waymo提出了一种基于激光雷达点云序列数据的3D自动标记流水线,该流水线使用3D检测器逐帧定位目标。然后,通过多目标跟踪器链接跨帧的已识别目标的边界框。为每个目标提取目标轨迹数据(每个帧处的对应点云+3D边界框),并使用分治架构进行以目标为中心的自动标记,以生成最终细化的3D边界框作为标签。优步提出的Auto4D pipeline首次探索了时空尺度下的AD感知标记。在自动驾驶领域中,空间尺度内的3D目标边界框标记以及时间尺度内的1D对应时间戳标记被称为4D标记。Auto4D pipeline从连续的激光雷达点云开始,以建立初始物体轨迹。该轨迹由目标大小分支进行细化,该分支使用目标观测值对目标大小进行编码和解码。同时,运动路径分支对路径观测和运动进行编码,允许路径解码器以恒定的目标大小细化轨迹。
3D静态场景自动标记可被视为HDMap生成,其中车道、道路边界、人行横道、红绿灯和驾驶场景中的其他相关元素应进行标注。在这一主题下,有几项有吸引力的研究工作:基于视觉的方法,如MVMap,NeMO;基于激光雷达的方法,如VMA;预训练3D场景重建方法,如OccBEV,OccNet/ADPT,ALO。VMA是最近提出的一项用于3D静态场景自动标记的工作。VMA框架利用众包、多行程聚合的激光雷达点云来重建静态场景,并将其分割成单元进行处理。基于MapTR的单元标注器通过查询和解码将原始输入编码为特征图,生成语义类型的点序列。VMA的输出是矢量化地图,将通过闭环标注和人工验证对其进行细化,从而为自动驾驶提供满意的高精地图。
实证研究
我们提供了一个实证研究,以更好地说明本文中提到的先进的闭环AD数据平台。整个过程图如图5所示。在这种情况下,研究人员的目标是开发一个基于Generative AI和各种基于深度学习的算法的AD大数据闭环pipeline,从而在自动驾驶算法研发阶段和OTA升级阶段(在现实世界部署后)实现数据闭环。具体而言,生成人工智能模型用于(1)基于工程师提供的文本提示生成特定场景的高保真度AD数据。(2) AD大数据自动标注,有效准备地面实况标签。
图中显示了两个闭环。其中较大的一个阶段是自动驾驶算法研发阶段,该阶段从生成人工智能模型的合成自动驾驶数据和从真实世界驾驶中获取的数据样本的数据收集开始。这两种数据源被集成为一个自动驾驶数据集,在云端进行挖掘,以获得有价值的见解。之后,数据集进入了双重标记路径:基于深度学习的自动标记或手动手工标记,确保了标注的速度和精度。然后,标记的数据被用于在高容量自动驾驶超级计算平台上训练模型。这些模型经过模拟和真实世界的道路测试,以评估其功效,从而发布自动驾驶模型并进行后续部署。较小的一个是针对真实世界部署后的OTA升级阶段,该阶段涉及大规模云端模拟和真实世界测试,以收集AD算法的不准确/角落情况。所识别的不准确性/角点情况用于通知模型测试和更新的下一次迭代。例如,假设我们发现我们的AD算法在隧道驾驶场景中表现不佳。已识别的隧道驾驶弯道情况将立即向环路公布,并在下一次迭代中更新。生成型人工智能模型将以隧道驾驶场景相关描述作为文本提示,生成大规模的隧道驾驶数据样本。生成的数据和原始数据集将被输入模拟、测试和模型更新。这些过程的迭代性质对于优化模型以适应具有挑战性的环境和新数据,保持自动驾驶功能的高精度和可靠性至关重要。
讨论
第三代及以后的新型自动驾驶数据集。尽管LLM/VLM等基础模型在语言理解和计算机视觉方面取得了成功,但将其直接应用于自动驾驶仍然具有挑战性。原因有两个方面:一方面,这些LLM/VLM必须具有全面集成和理解多源AD大数据(如FOV图像/视频、激光雷达云点、高清地图、GPS/IMU数据等)的能力,这比理解我们在日常生活中看到的图像更难。另一方面,自动驾驶领域现有的数据规模和质量与其他领域(如金融和医疗)不可比,难以支持更大容量LLM/VLM的训练和优化。由于法规、隐私问题和成本的原因,目前自动驾驶大数据的规模和质量有限。我们相信,在各方的共同努力下,下一代AD大数据在规模和质量上都会有显著提升。
自动驾驶算法的硬件支持。当前的硬件平台已经取得了重大进展,特别是随着GPU和TPU等专门处理器的出现,这些处理器提供了对深度学习任务至关重要的大量并行计算能力。车载和云基础设施中的高性能计算资源对于实时处理车辆传感器生成的大量数据流至关重要。尽管取得了这些进步,但在处理自动驾驶算法日益复杂的问题时,在可扩展性、能效和处理速度方面仍然存在局限性。VLM/LLM引导的用户-车辆交互是一个非常有前景的应用案例。基于该应用程序可以收集用户特定的行为大数据。然而,VLM/LLM在车端的设备将要求高标准的硬件计算资源,并且交互式应用程序预计具有低延迟。因此,未来可能会有一些重量轻的大型自动驾驶车型,或者LLM/VLM的压缩技术将得到进一步研究。
基于用户行为数据的个性化自动驾驶推荐。智能汽车,已经从简单的交通工具发展到智能终端场景的最新应用扩展。因此,人们对配备先进自动驾驶功能的车辆的期望是,它们能够从历史驾驶数据记录中学习驾驶员的行为偏好,如驾驶风格和行驶路线偏好。这将使智能汽车在未来帮助驾驶员进行车辆控制、驾驶决策和路线规划时能够更好地与用户喜爱的车辆保持一致。我们将上述概念称为个性化自动驾驶推荐算法。推荐系统已广泛应用于电子商务、在线购物、送餐、社交媒体和直播平台。然而,在自动驾驶领域,个性化推荐仍处于起步阶段。我们相信,在不久的将来,将设计一个更合适的数据系统和数据采集机制,在用户允许并遵守相关规定的情况下,收集用户驾驶行为偏好的大数据,从而为用户实现定制的自动驾驶推荐系统。
数据安全和值得信赖的自动驾驶。海量的自动驾驶大数据对数据安全和用户隐私保护提出了重大挑战。随着互联自动驾驶汽车(CAV)和车联网(IoV)技术的发展,车辆的连接越来越紧密,从驾驶习惯到频繁路线的详细用户数据的收集引发了人们对个人信息潜在滥用的担忧。我们建议在收集的数据类型、保留策略和第三方共享方面具有透明度的必要性。它强调了用户同意和控制的重要性,包括尊重“不跟踪”请求和提供删除个人数据的选项。对于自动驾驶行业来说,在促进创新的同时保护这些数据需要严格遵守这些准则,确保用户信任并遵守不断发展的隐私立法。
除了数据安全和隐私,另一个问题是如何实现值得信赖的自动驾驶。随着AD技术的巨大发展,智能算法和生成人工智能模型(如LLM、VLM)将在执行越来越复杂的驾驶决策和任务时“充当驱动因素”。在这个领域下,一个自然的问题出现了:人类能信任自动驾驶模型吗?在我们看来,值得信赖的关键在于自动驾驶模型的可解释性。他们应该能够向人类驾驶员解释做出决定的原因,而不仅仅是执行驾驶动作。LLM/VLM有望通过实时提供高级推理和可理解的解释来增强可信赖的自动驾驶。
结论
这项调查首次系统回顾了自动驾驶中以数据为中心的进化,包括大数据系统、数据挖掘和闭环技术。在这项调查中,我们首先制定了按里程碑代分类的数据集分类法,回顾了AD数据集在整个历史时间线上的发展,介绍了数据集的获取、设置和关键功能。此外,我们从学术和工业两个角度阐述了闭环数据驱动的自动驾驶系统。详细讨论了以数据为中心的闭环系统中的工作流pipeline、流程和关键技术。通过实证研究,展示了以数据为中心的闭环AD平台在算法研发和OTA升级方面的利用率和优势。最后,对现有数据驱动自动驾驶技术的优缺点以及未来的研究方向进行了全面的讨论。重点是第三代之后的新数据集、硬件支持、个性化AD推荐、可解释的自动驾驶。我们还表达了对Generative AI模型、数据安全和自动驾驶未来发展中值得信赖的担忧。
参考
[1] Data-Centric Evolution in Autonomous Driving: A Comprehensive Survey of Big Data System, Data Mining, and Closed-Loop Technologies.
开源链接:https://github.com/LincanLi98/Awesome-Data-Centric-Autonomous-Driving
#远距离LiDAR感知
本文所提到的内容都在图森ai day视频[0]和公开发表的论文中,不涉及具体的工程细节等技术秘密。
众所周知,图森是做卡车自动驾驶的,而卡车不论是刹车距离还是变道时间都远比轿车要长,所以如果说图森有什么与其他自动驾驶公司不同的独门技术,远距离感知必然是其中之一。我在图森负责LiDAR感知这一块,就专门聊一聊使用LiDAR进行远距离感知的相关内容。
刚加入公司时,主流的LiDAR感知一般是BEV方案。不过此BEV不是大家熟悉的那个BEV,特斯拉的那个BEV感知我个人认为应该叫作“多视角相机在BEV空间下的融合技术”,而这里的LiDAR BEV是指将LiDAR点云投影到BEV空间下,然后接2D卷积+2D检测头进行目标检测的方案。我能查到最早关于BEV方案的记录是在百度发表在CVPR17的论文MV3D[1],后续的大部分工作,包括我所了解的大部分公司实际使用的方案,最后都要投影到BEV空间进行检测,大致也都可以归在BEV方案之中。
MV3D[1]使用的BEV视角特征
BEV方案的一大好处是可以直接套用成熟的2D检测器,但也有一个很致命的缺点:它限制住了感知范围。从上图可以看到,因为要套2D检测器,它必须形成一个2D的feature map,此时就必须给它设置一个距离阈值,而在上图范围之外其实也还是有LiDAR点的,只是被这个截断操作给丢弃了。那可不可以把这个距离阈值拉大,直到包住所有点呢?硬要这么做也不是不行,只是LiDAR在扫描模式、反射强度(随距离呈4次方衰减)、遮挡等问题作用下,远处的点云是非常少的,这么做很不划算。
BEV方案的这个问题在学术界并没有引起关注,这主要是数据集的问题,主流数据集的标注范围通常只有不到80m(nuScenes 50m、KITTI 70m,Waymo 80m),在这个距离下BEV feature map并不需要很大。但工业界使用的中距离LiDAR普遍已经可以做到200m的扫描范围,而近几年也有几款远距离LiDAR问世,它们可以做到500m的扫描范围。注意到feature map的面积和计算量是随距离呈二次方增长的,在BEV方案下,200m的计算量几乎都无法承受,更不用说500m了。
公开数据集中激光雷达的扫描范围。KITTI(红点, 70m) vs. Argoverse 2 (蓝点, 200m)
在认识到BEV方案的局限之后,我们进行了多年的研究,最终才找到了可行的替代方案。研究过程并非一帆风顺,经历了很多次挫折,论文和报告中一般都只会讲成功而不会说失败,但失败的经验也是弥足珍贵的,所以博客反而成了更好的媒介,下面就按时间线依次讲述一下。
二、Point-based方案
CVPR19上,港中文发表了一篇Point-based检测器PointRCNN[2],它是直接在点云上进行计算的,点云扫到哪它算到哪,没有拍BEV的过程,所以这类point-based方案理论上是可以做到远距离感知的。
但我们试下来发现了一个问题,KITTI一帧的点云数量可以降采样到1.6万个点来检测而不怎么掉点,但我们的LiDAR组合一帧有10多万个点,如果降采样10倍显然检测精度会大幅度受影响。而如果不降采样的话,在PointRCNN的backbone中甚至有O(n^2)的操作,导致它虽然不拍bev,但计算量仍然无法承受。这些比较耗时的op主要是因为点云本身的无序性,导致不论是降采样还是检索邻域,都必须遍历所有的点。由于涉及到的op较多且都是没有经过优化的标准op,短期内感觉也没有能优化到实时的希望,所以这条路线就放弃了。
不过这段研究也并没有浪费,虽然backbone计算量过大,但它的二阶段因为只在前景上进行,所以计算量还是比较小的。把PointRCNN的二阶段直接套用在BEV方案的一阶段检测器之后,检测框的准确度会有一个比较大的提升。
三、Range-View方案
在Point-based方案尝试失败之后,我们将目光转向了Range View,当年的LiDAR都是机械旋转式的,比如64线激光雷达就会扫描出64行具有不同俯仰角的点云,比如每行都扫描到2048个点的话,就可以形成一张64*2048的range image。
RV、BEV、PV的对比
在Range View下,点云不再是稀疏的形式而是致密地排列在一起,远距离的目标在range image上只是比较小,但并不会被丢掉,所以理论上也是能检测到的。
可能是因为与图像更相似,对于RV的研究其实比BEV还早,我能找到的最早记录也是来自于百度的论文[4],百度真的是自动驾驶的黄埔军校啊,不论是RV还是BEV的最早应用都来自于百度。
于是当时我就随手试了一把,结果跟BEV方法相比,RV的AP狂掉30-40个点...我发现其实在2d的range image上检测得还可以,但输出出来的3d框效果就非常差了。当时分析RV的特性,感觉它具备图像的所有劣势:物体尺度不统一、前背景特征混杂、远距离目标特征不明显,但又不具备图像语义特征丰富的优势,所以当时对这个方案比较悲观。
因为正式员工毕竟还是要做落地的工作,对于这种探索性问题还是交给实习生比较好。后来招了两名实习生一起来研究这个问题,在公开数据集上一试,果然也是掉了30个点...还好两位实习生比较给力,通过一系列的努力,还有参考其他论文修正了一些细节之后,将点数刷到了跟主流BEV方法差不多的水平,最终论文发表在了ICCV21上[5]。
虽然点数刷上来了,但问题并没有被彻底解决,当时lidar需要多帧融合来提高信噪比的做法已经成为共识,远距离目标因为点数少,更加需要叠帧来增加信息量。在BEV方案里,多帧融合非常简单,直接在输入点云上加上一个时间戳然后多帧叠加起来,整个网路都不用改动就可以涨点,但在RV下变换了很多花样都没有得到类似的效果。
并且在这个时候,LiDAR从硬件的技术方案上也从机械旋转式走向了固态/半固态的方式,大部分固态/半固态的LiDAR不再能够形成range image,强行构造range image会损失信息,所以这条路径最终也是被放弃了。
四、Sparse Voxel方案
之前说过Point-based方案的问题在于点云不规整的排列使得降采样和邻域检索等问题需要遍历所有点云导致计算量过高,而BEV方案下数据规整了但又有太多空白区域导致计算量过高。这两者结合一下,在有点的地方进行voxelization使其变得规整,而没点的地方不进行表达来防止无效计算似乎也是一条可行的路径,这也就是sparse voxel方案。
因为SECOND[6]的作者闫岩加入了图森,所以我们在早期就曾经尝试过sparse conv的backbone,但因为spconv并不是一个标准的op,自己实现出来的spconv仍然过慢,不足以实时进行检测,有时甚至慢于dense conv,所以就暂时搁置了。
后来第一款能扫描500m的LiDAR:Livox Tele15到货,远距离LiDAR感知算法迫在眉睫,尝试了一下BEV的方案实在是代价太高,就又把spconv的方案拿出来试了一下,因为Tele15的fov比较窄,而且在远处的点云也非常稀疏,所以spconv勉强是可以做到实时的。
但不拍bev的话,检测头这块就不能用2D检测中比较成熟的anchor或者center assign了,这主要是因为lidar扫描的是物体的表面,中心位置并不一定有点(如下图所示),没有点自然也无法assign上前景目标。其实我们在内部尝试了很多种assign方式,这里就不细讲公司实际使用的方式了,实习生在之后也尝试了一种assign方案发表在了NIPS2022上[7],可以看看他写的解读:
明月不谙离苦:全稀疏的3D物体检测器
但如果要把这个算法应用在向前500m,向后和左右各150m的LiDAR组合下,还是力有不逮。恰好实习生之前追热度曾经也借鉴Swin Transformer的思想做过一篇Sparse Transformer的文章[8],也是费了好大的功夫从掉20多个点一点点刷起来(感谢实习生带飞,tql),当时觉得Transformer的方法还是很适合不规整的点云数据的,所以在公司数据集上也试了一下。
可惜的是,这个方法在公司数据集上一直刷不过BEV类方法,差了接近5个点的样子,现在回想起来可能还是有一些trick或者训练技巧没有掌握,按理说Transformer的表达能力是不弱于conv的,但后来也并没有再继续尝试。不过这个时候已经对assign方式进行了优化降低了很多计算量,所以就想再尝试一把spconv,结果令人惊喜的是,直接把Transformer替换为spconv就可以做到近距离与BEV类方法的精度相当,同时还能检测远距离目标的效果了。
也是在这个时候,闫岩同学做出了第二版spconv[9],速度有了大幅度提升,所以计算延迟不再是瓶颈,终于远距离的LiDAR感知扫清了所有障碍,能够在车上实时地跑起来了。
后来我们更新了LiDAR排列方式,将扫描范围提升到了向前500m,向后300m,向左向右各150m,这套算法也运行良好,相信随着未来算力的不断提升,计算延迟会越来越不成问题。
下面展示一下最终的远距离检测效果,大家也可以看看图森ai day的视频的01:08:30左右的位置看一下动态的检测效果:
虽然是最终的融合结果,但因为这天起雾图像能见度很低,所以结果基本上都来自于LiDAR感知。
五、后记
从point-based方法,到range image方法,再到基于sparse voxel的Transformer和sparse conv方法,对于远距离感知的探索不能说是一帆风顺,简直就是满路荆棘。最后其实也是随着算力的不断提升加上很多同事的不断努力才做到了今天这一步。在此感谢图森首席科学家王乃岩和图森的各位同事、实习生们,这里面大部分的idea和工程实现都不是我做出来的,很惭愧,更多地是起到了承上启下的作用。
很长时间不写这么长的文章了,写得跟个流水账似的而没有形成一个动听的故事。近年来,坚持做L4的同行越来越少,L2的同行们也逐渐转向纯视觉的研究,LiDAR感知肉眼可见地逐步被边缘化,虽然我仍然坚信多一种直接测距的传感器是更好的选择,但业内人士似乎越来越不这么认为。看着新鲜血液们的简历上越来越多的BEV、Occupancy,不知道LiDAR感知还能再坚持多久
#关于BEV(障碍物)落地
1: 21年的大争论
现在回看21年底组内决定做BEV障碍物的时候,应该来说是一个幸运,或者说有一点运气在里面。最开始面临的当时是大家每个人都熟悉的拍板的事情,到底是按照业界成熟的2D检测方案,或者说单目3D的的检测方案来做。还是说按照21 在自动驾驶届最火的那个Tesla Ai Day 的方案来做。争论,和彷徨应该持续了有一个月左右的时间。很幸运的是,最终我们老大直接拍板了,决定做BEV 障碍物。现在回看为什么说幸运:一个是在21年后学术届有很多优秀的BEV论文出来,一个是行车感知这块一直没有作为一个正式项目立项,给了我们足够的时间去试错,(最开始只有2-3个人来做这件事情)。如果缺少这一些因素,也许最后是做不出来的。这样可能往往一件成功的事情都伴随着一些幸运在里面吧。
2:BEV 如何做方案
在21年10份的时候,能够找到的BEV 障碍物检测的资料还是比较少的,看的最多的就是21 年Tesla AI day 上面的BEV pipeline。我记得很清楚组内对21年的Tesla AI day 的pipeline 方案(感知部分)进行了拆解分析,最后的难点卡在了2D image Feature 到 BEV Feature 的转换上面。其实那个时候还真不知道如何和Tranformer 结合来做这个。在这里不得不感慨CV 领域的开源文化,有一天看到了Patrick Langechuan Liu(https://www.linkedin.com/in/patrick-llgc/). (在这里很感谢刘兰个川博士持续关于自动驾驶经典论文的输出Paper notes(https://patrick-llgc.github.io/Learning-Deep-Learning/),不过近期看到刘兰个川博士从自动驾驶行业跳去做机器人和大模型去了。)写的一篇文章,里面有一个图,感觉对2Dto BEV 的转换清楚了很多。如图1
图1 来自https://towardsdatascience.com/monocular-bev-perception-with-transformers-in-autonomous-driving-c41e4a893944
然后我们就开始按图索骥,开始设计我们的网络,后面Detr3D—DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queri(https://arxiv.org/abs/2110.06922) 开源,结合Detr3D 我们的BEV 障碍物网络在nuscenes 数据集上开始收敛还不错。在验证集上跑出一个视频效果,大家都比较兴奋。那个时候我们只有2张40G的A100, 现在回想哈哈,我们真是无知者无畏。
3: 痛苦开始的22年
到22年的时候,我们面临的两个问题一个是自己车型的BEV训练数据如何构建,一个是如何把BEV 网络部署到车上。先说数据,这面临两个问题,一个是采集,一个是标注,还有一个是标定。采集我们搞了一台真值采集车,但是因为没有搞硬同步,导致7v(前视2V,后视1V,周视4V) 摄像头 和lidar 时间同步有问题,然后我们就搞了一套所谓的软同步的方案,只能说凑合着够用。然后说到标注,其实在22年标注行业里面,或者说我们选到标注供应商他们是没有标注过BEV 障碍物的, 然后我们就从零开始写标注文档(这个过程是真痛苦), 第一版的标注文档,加上供应商提供的标注工具,最后标注出来的数据,一个字是真贵呀, 每标一帧都在滴血。经过1-2个月双方痛苦的磨合和优化过程,最终价格在一个合理的范围内了,不过现在回看,我们在22年标注的数据量还是有点多了。标定,最开始标定我们是求助外力来搞的,但是效果是真不行。最终只能自己动手风衣足食,磕磕绊绊搞了一个lidar 和7v 的联合标注。经过这一系列的操作,在这里感谢商汤开源的标定工具,https://github.com/pjlab-adg/sensorscalibration。我们终于搞到了质量还算可以的数据(现在回看,我们应该提早为时序模型的数据进行布局)。然后就是部署了,我记得很清楚上海刚好有疫情,然后我们居家了3个月左右。我们差不多痛苦了1个多月,在部署的时候,有一些算子不支持(也主要是2D-to-3D 的算子),后面是转出来模型性能差,然后优化。然后是Pytroch 的模型和转出来在工程上部署的模型掉点很严重,我们曾一度想搞一个Fcos3D(https://arxiv.org/abs/2104.10956) 的网络先搞到板子上。组内的同学很给力的,我们差不多就3-4个人力左右的情况下,最后我们的模型能跑到10hz, 然后在大家的努力下我们差不多在22年7,8月份的时候,我们的视觉 BEV 障碍物就能跑上车了。看到BEV 障碍物在车上实时跑起来的时候,还是感觉到很兴奋的。(跨相机的case 是真稳,整个后处理pipeline 是真的很简洁的)。 整个22年对我们来说收获还很大的,BEV 障碍物跑的不错。但22年我们也面临了来自项目的压力我们曾面临着人力资源紧缺,只有一个人力在投入在BEV 上面,还好大家坚持了下。
4:收获的23年
在前面差不多1年多的积累下,也随着组内的资源越来越多,23年我们做出来BEV 车道线,还有前融合的BEV多任务模型,端到端的红绿灯(一介书生:城市自动驾驶红绿灯方案何去何从?(https://zhuanlan.zhihu.com/p/656119050))目前都已经落地,在项目中开始测试,交付中。目前我们在探索时序的BEV,以及大模型相关的(一介书生:2024年自动驾驶标注行业是否会被世界模型所颠覆?(https://zhuanlan.zhihu.com/p/678882421)) 现在来看在21年投入去积累BEV技术,是一个很恰当的时机,当然抛开技术本身,我们老大也顶下来很大的压力和质疑,因为有人的地方就有江湖的。
#CARLA 0.9.15
发现了一个神奇啊 大伙去试试啊~数字孪生、大地图、素材一键导入!
11月10日,CARLA正式发布0.9.15版本!带来数字孪生程序化、大地图上新、素材一键导入等诸多新特性。这些升级显著的加速了CARLA的内容创作流程。本文由深信科创CTO、CARLA核心开发者潘余曦博士,深信科创工程师、CARLA Leaderboard核心开发者严宋扬撰写,为大家带来CARLA 0.9.15最新特性的技术解读。同时,深信科创也在自动驾驶仿真及数据闭环工具链SYNKROTRON® OASIS中集成CARLA 0.9.15版本,期待与CARLA开源社区一起将自动驾驶仿真能力推向新的高度。
CARLA 0.9.15的主要亮点
① 加入全新地图Town 13与Town 15:
- Town 13是一张10x10平方公里的大型地图,与Town 12规格一致,但也存在诸多细节差异。Town 13和Town 12互为补充,可以通过训练验证组合帮助用户发现算法过拟合问题;
- Town 15是一张标准大小地图,复刻了一个大学校园,拥有丰富的迷你环岛和交通限制措施;
② 添加新的重型货车模型:新增了一款驾驶室前置式的重型货车模型,增强了CARLA车辆库的多样性;
③ 程序化三维地图与建筑生成工具:
- 数字孪生工具能够基于OpenStreetMap真实路网数据,程序化生成三维地图,其中包含了道路、建筑和植被;
- 程序化建筑生成工具可以通过使用不同的建筑模组与调节参数,在建筑风格上创造出无限的变化;
④ CARLA资产目录:增加了用户浏览带有图片信息的模型详情,帮助用户轻松选择所需的仿真资产;
⑤ 与英伟达Omniverse集成: 支持直接导入英伟达Omniverse平台SimReady的内容,加速三维仿真环境的构建。
一、加入全新地图Town 13与Town 15
Town 13:100平方公里的全新大地图
上个版本的CARLA引入了广受好评的Town 12大地图,相较于标准尺寸的地图,它为复杂的仿真场景提供了更广阔的舞台。这次CARLA 0.9.15版本带来了全新的100平方公里Town 13大地图,其拥有复杂的区域结构,从城市到乡村,从单行道到大型高速公路等仿真场景一应俱全。
值得注意的是,Town 13在道路结构、建筑风格和模型参数等方面与Town 12有所不同。Town 13和Town 12互为补充,可以共同构成训练-验证模型的二元组。开发者可以在一个Town中训练,在另一个Town中进行验证,形成检测自动驾驶技术栈中过拟合问题的有效方法。
Town 15:适用于校园、工业园区自动驾驶训练的新地图
Town 15是一张标准大小的地图,复刻了巴塞罗那自治大学 (Universitat Autònoma de Barcelona, UAB) 的道路结构和一些标志性建筑。此地图特别展现了包括众多环形交叉口、路边停车位和一些陡峭地形在内的道路特点。大学内的计算机视觉中心和人文科学图书馆等标志性建筑也在地图中有精致的建模。Town 15适用于校园及工业园区等低速环境下,对交通安全有极高要求的自动驾驶系统,进行训练与测试。
二、添加新的重型货车模型
CARLA 0.9.15版本的仿真车辆模型库中,新增了一款适用于物流运输场景的重型货物牵引车,新版本对此车辆提供了完整的支持。
三、程序化三维地图与建筑生成工具
地图的构建一直是仿真工程师关注的领域,这是一项耗时耗力、复杂繁琐的工作。在CARLA 0.9.15版本中, CARLA推出了两项新的实验性功能,专用于程序化地生成新地图和建筑。这些工具将有助于提高地图生成的速度,并为自定义CARLA地图添加更多的多样性,帮助仿真工程师高效快速地构建地图。
数字孪生工具
数字孪生工具可以利用OpenStreetMap数据,制作独特的CARLA地图。用户可以下载一个区域的OSM数据作为输入,然后通过工具界面浏览地图。选择一个感兴趣的区域后,该工具会提取道路网络,并使用真实的道路材质进行渲染,同时生成三维建筑和植被,填充道路间的空隙。这样生成的CARLA地图与现实中的路网高度相似。地图中的建筑是根据OSM中提取的建筑轮廓和高度数据构建的,确保数字孪生中的建筑与选定区域中的真实建筑在比例上相匹配。建筑物采用了 CARLA 资产库中的各种风格的模组进行装饰,以创造视觉上的多样性。
程序化建筑生成工具
程序化建筑生成工具为CARLA用户提供了创建新建筑的能力,用户可以使用不同的建筑物模组和调节参数来控制建筑的特征。
同时,可以向建筑物添加各种装饰,如窗花、门楣、窗台、水管、遮阳棚、百叶窗和天线等,以创造出不同程度的变化。
四、CARLA资产目录
在CARLA 0.9.15版本中,CARLA提供了一个在线交互式目录,涵盖地图、车辆、行人和道具等主要资源。这个目录支持各种资源的可视化浏览,用户可以方便地在其中找到所需的资源,直接对应蓝图ID。此外,目录还提供了适用于Town 12和Town 13的在线导航工具,只需拖拽轻点,就可以在大型地图中轻松获取目标区域的坐标。
五、支持与英伟达Omniverse集成
英伟达的SimReady规范是为仿真场景量身打造的,旨在支持专门针对仿真目的的3D内容构建,简化在机器学习和自动驾驶领域的3D虚拟环境的制作流程。通过Omniverse Unreal Engine插件(已整合进CARLA),用户能够轻松快速地导入已配备完整车灯、车门和车轮的车辆等SimReady内容,以及随手可得的模型来丰富CARLA地图。CARLA与Omniverse的紧密结合大幅提升了构建3D仿真环境的效率,并为Omniverse生态系统中的众多应用开启了新的可能性。
六、其他修复和改进
- 新的API:仅在需要加载的地图与当前地图不同的时候进行加载
- 添加了空的Actor蓝图
- 具有AI或在重放模式下的行人现在快了大约10倍。在撞到车辆之前,它们的碰撞已被禁用
- 修复了FPixelReader::SavePixelsToDisk(PixelData, FilePath)函数由于像素数组未正确设置而导致崩溃的错误
- 修复了导入脚本,如果目标文件夹中有许多其他TilesInfo.txt,可以全部使用它们
- 修复了传感器以检查数据流是否准备就绪(竞争条件下)
- 为carla.TrafficManager Python API函数添加了关键字参数
- 通过传递ARGS=–no-unity来启用Surface non-unity构建模式;允许解除遮蔽和修复IWYU类型的错误
- 修复了Directx纹理中的额外数据,因此在Windows上需要逐行复制以删除图像上的额外字节
- 修复了TrafficManager中的一个错误,避免行驶到结束车道的车辆在变道时表现异常
- 由碰撞传感器检测到的碰撞不再在每帧生成多个事件
七、立即尝试新的CARLA
CARLA 0.9.15在素材内容创作方面取得了重大进展。无论您是自动驾驶领域的研究人员、开发者还是爱好者,CARLA都提供了一个更加高效、实用、易上手的测试、开发和创新平台。欢迎大家使用,携手深信科创与CARLA 0.9.15一起将您的自动驾驶项目推向新的高度,深信不疑,科创未来!
立即体验CARLA 0.9.15 - 链接
https://github.com/carla-simulator/carla/releases
#V2VFormer++
多模态卷进车路协同 V2VFormer++:首个多模态V2V框架问世
最近出现的多车辆协作感知旨在促进联网自动车辆(CAV)的远距离和大规模感知能力。 尽管如此,人们付出了巨大的努力将协同感知制定为仅 LiDAR 的 3D 检测范例,而忽略了密集图像的重要性和补充。 在这项工作中,我们构建了第一个多模态车对车协同感知框架,称为 V2VFormer++,其中单个摄像头-LiDAR 表示与鸟瞰 (BEV) 空间的动态通道融合 (DCF) 相结合,并且来自相邻车辆的以自我为中心的 BEV 地图由全局-局部transformer模块聚合。 具体来说,开发了采用 MLP 设计的通道token混合器 (CTM),以捕获相邻 CAV 之间的全局响应,并且位置感知融合 (PAF) 进一步从局部角度研究每个自我网络地图之间的空间相关性。 通过这种方式,我们可以战略性地确定哪些 CAV 适合协同以及如何从它们中聚合最重要的信息。 在公开的 OPV2V 和 V2X-Sim2.0 基准上进行了定量和定性实验,我们提出的 V2VFormer++ 得到了最先进的协同感知性能,展示了其有效性和先进性。 此外,消融研究和可视化分析进一步表明,其对现实场景中的各种干扰具有很强的鲁棒性。
主要思路是什么?
作为前沿技术,自动驾驶被视为智能交通系统(ITS)的发展趋势,为解决交通拥堵、碰撞和排放污染等棘手问题提供了一种有前景的解决方案。 随着深度学习和计算机视觉的发展,环境感知作为自动驾驶系统的重要组成部分,在物体检测和分割任务方面也取得了长足的进步。在准确性和效率方面都获得了显着的性能改进。 由于复杂的交通场景和变化的物理条件,单纯依靠自车视角信息很难保证鲁棒性和安全的传感性能。 因此,如何挖掘和聚合多源信息来增强感知能力是学术界和工业界的热点问题。
最近出现了基于信息融合和数据共享的车车(V2V)协同感知,它通过低延迟车辆通信战略性地整合来自邻近联网自动车辆(CAV)的多视图环境。 这样,可以显着缓解各种驾驶场景中出现的盲点、超视距、遮挡等感知挑战,同时使自动驾驶汽车具备远距离、大范围的感知能力 如图1所示。根据不同的协同策略,当前的工作关于多智能体感知可以分为三个层次。 一方面,早期融合将来自每辆车的原始传感器数据传输到目标车辆,然而,由于难以承受的计算开销和通信带宽,它无法满足实时系统的要求。 另一方面,后期融合通过数学运算(即求和和平均)或注意力机制直接对各个检测进行重新加权,大大提高了运行速度。 然而,不同车辆的误报可能会以这种方式被放大,累积的空间位移会逐步损害多智能体的协同性能。 中间特征协同由于其在准确性和速度之间更好的权衡而越来越受欢迎,将 CAV 紧凑的特征的表示(例如 BEV 地图)转换为统一坐标,以便在全局视图中全面了解交通场景。 给定多个 BEV 特征,基于图的方法创建一个加权协同图,其中每个节点表示单个车辆及其实时姿态信息,成对边缘通过空间权重矩阵定义相邻车辆之间的关系。 此外,基于 Transformer 的算法对编码序列执行自注意力或交叉注意力操作,以捕获 CAV 之间的局部和全局依赖性。 作为替代方案,通过最远点采样(FPS)有效地选择关键点表示来突出显示重要点,只有当它存在于候选提案中时才会被进一步保留。 总之,这些工作的流程是在自我坐标上结合车辆间表示来增强特征,但由于激光雷达点的稀疏性和不均匀性,很容易出现特征模糊和语义缺陷。 更重要的是,以前的协同策略在投影到参考坐标后显式地构建空间特征关系,但研究全局中 CAV 之间的通道交互并非易事。
在本文中,我们将感知转化为3D目标检测任务,并开发了多模态车车协同感知框架,称为V2VFormer++。 对于每个 CAV,提出了一种相机-LiDAR 范例来克服仅 LiDAR 检测的缺点,它用密集的上下文(即纹理、轮廓等)补偿精确的几何形状,以实现多功能的环境描述。为了获得统一平面上的表达表示,我们通过视图变换将两种异构模态投影到鸟瞰图(BEV)空间中,并进一步设计了一种简单而高效的多模态融合模块动态通道融合(DCF)像素 -以自适应方式进行点对应聚合。 通过这种方式,可以通过边际计算预算充分利用每个以自我为中心的视角的丰富语义属性。对于车辆到车辆的感知,提出了一种新颖的全局-局部变换策略来聚合 CAV 的中间特征。 具体来说,我们首先采用MLP设计的通道token混合器(CTM)来计算不同车辆之间的全局响应,从而根据相关性得分来匹配每个自我网络对。 为了更多地关注感兴趣区域(RoI),引入了位置感知融合(PAF)来关注所有车辆的信息区域,并且还使用自注意力transformer探索了局部的像素级特征语义。 最后,我们对 OPV2V 和 V2X-Sim 2.0数据集进行了全面的实证研究,提出的 V2VFormer++ 实现了最先进的协作感知精度,对比同行(例如,多 车辆单模式和多车辆多模式)大幅提高。 此外,对不同配置和场景的消融分析进一步表明其针对现实世界中断的鲁棒性和通用性。
综上所述,这项工作的贡献主要描述如下:
- 我们提出了 V2VFormer++,这是第一个多模态车辆间协同感知框架,它使用来自单独车辆的异构模态来增强多智能体协作性能。
- 动态通道融合(DCF)模块旨在以自适应方式从相机和 LiDAR BEV 视图进行对应聚合。
- 全局-局部transformer协同是一种中间融合策略,其中开发通道token混合器(CTM)用于捕获CAV之间的全局响应,并利用位置感知融合(PAF)模块从局部角度探索空间语义 。
- 没有花里胡哨的东西,我们的 V2VFormer++ 报告了 OPV2V和V2X-Sim 2.0基准测试中最先进的协同检测性能,其性能显着优于所有替代方案。 此外,消融研究和可视化结果进一步证明了其针对现实场景中各种干扰的鲁棒性。
目前的工作
本节旨在回顾基于 LiDAR 和摄像头 LiDAR 3D 目标检测以及车车协同感知的相关研究。
A. 基于 LiDAR 的 3D 检测
根据不同的数据格式,基于LiDAR的3D检测可大致分为三类:基于点、基于体素和混合表示。 基于点的算法直接使用PointNet 和PointNet ++架构的原始LiDAR数据来进行可靠的几何特征提取,前者采用集合抽象(SA)运算符来聚合逐点表示并利用变换网络(T-Net)用于输入和特征级别的特征对齐,而后者通过分层采样方法进一步从点云学习局部和全局上下文。 对于3D检测任务,3DSSD同时引入距离(D-)和特征(F-)最远点采样(FPS)策略来处理点表示的稀疏性,并通过SSD(单级)进行目标定位和分类 探测器)类似的架构。 为了更好地区分前景点和背景,CenterPoint 提取关键点特征以从目标的中心点预测 3D 边界框,而 IA-SSD利用 SSD 架构的实例感知特征进行 3D 目标检测。 基于体素的检测器是一种有效的范例,其中 3D 点空间首先被离散化为规则网格,然后引入卷积网络来处理每个体素内编码的细粒度特征。 作为开创性工作,VoxelNet设计了堆叠体素特征编码(VFE)层来进行逐点信息提取,然后利用 3D 卷积进行局部中间特征聚合。 为了加快推理速度,SECOND 开发了 3D 稀疏卷积来进行高效体素特征编码,而 PointPillars将点云折叠为 2D 表示并使用稀疏卷积主干。 受 2D Faster RCNN 思想的启发,Deng et al.提出了一种名为 Voxel RCNN 的两阶段 3D 检测框架,在精度和效率之间具有更好的权衡,首先生成粗略的 3D 候选推荐,并在第二阶段通过体素 RoI 池化层执行框细化。 此外,CAGroup3D探索全卷积3D池化来增强每个推荐框内的主干特征,追求最终的检测性能。 将逐点特征与体素特征结合起来进行 3D 目标检测的研究最近成为一个热点问题。 STD遵循稀疏到密集的检测范式,该范式通过新颖的球形锚从原始点获得准确的推荐,并通过点池化从稀疏点表达生成紧凑的表示。 PV-RCNN使用体素集抽象模块将3D场景概括为一组关键点,并通过RoI网格池化将特定于推荐的特征抽象为密集网格。 此外,PV-RCNN++引入了位置敏感融合模块,用于点云和体素网格上的特征增强。 Part-A2 Net由部分感知和部分聚合阶段组成,前者旨在生成具有目标内部分位置的高质量推荐,而后者在池化后根据空间位置关系进行框细化。 SE-SSD采用一对teacher和student检测器,采用有效的基于 IoU 的匹配策略和一致性 ODIoU 损失来提高性能。 此外,Noh et al.提出了一种新的 HVPR 架构,它将基于点和基于体素的特征集成到单个 3D 表示中,并设计了细心的多尺度特征模块,以从稀疏和不规则的点模式中学习尺度感知信息。 在本文中,我们采用 PointPillars 作为单车 LiDAR 骨干网,以实现效率和精度之间的权衡。
B. 相机-LiDAR 3D 物体检测
相机-LiDAR融合感知最近展示了其优越性并引起了3D检测的广泛关注,它弥补了仅激光雷达方法的稀疏性、不确定性和语义碎片化。 在没有复杂的伪激光雷达生成过程的情况下,Pointpainting设计了一种基于顺序的融合机制,首先用图像分割网络产生的像素级语义得分来修饰原始点云,然后将它们放入任何仅激光雷达流程中。 3D-CVF将密集的相机体素投影到 BEV 平面上,并通过自适应门控注意力图连接每个模态。 此外,Chen et al.通过可学习的透视对齐而不是固有的投影矩阵建立像素-体素视图关联,灵活地实现异构表示的一致性。最近,Transfusion首次尝试将transformer引入相机 LiDAR 3D检测中,因为它在远程依赖建模方面具有优越性。它应用两个顺序解码器层将目标查询与 BEV 平面上的粗略 LiDAR 和精细增益图像特征软关联,逐步增强感知性能。 类似地,UVTR通过基于transformer的解码器和概率深度分布将图像特定空间扩展到体素,并进一步通过知识迁移进行交叉注意特征交互。 BEVFusion将多模态流转换为规范坐标,并采用动态融合策略来防止 LiDAR 故障造成的故障情况。 在本文中,我们的目标是一种简单而优雅的像素点融合范式,其中异构特征可以转换为统一的表示,并且两个 BEV 图以自适应聚合的方式投影到与高度无关的自车平面上。
C. 车与车协同感知
车辆对车辆(V2V)协同感知最近随着先进的车辆通信和信息融合而出现,从而为缓解单智能体检测带来的超视距和盲点挑战提供了有效的解决方案。 总体而言,该流程将来自联网自动车辆(CAV)的多视图周围感知数据与以自车为中心的观察相结合,以促进全局感知能力,并且根据不同的合作阶段,先前的工作可主要分为早期、 中期和后期协同。 Cooper主要共享多分辨率 LiDAR 点,并将自己的稀疏表示投影到紧凑的空间中,然后使用稀疏点云目标检测(SPOD)网络来适应低密度点云。 然而,它在早期融合方式中导致了难以承受的计算开销。 相反,后期融合方法结合了来自不同车辆的独立预测,并进行推荐细化以产生最终结果。 Hurl et al.引入了用于安全消息选择的信任机制,并集成了一种新颖的 TruPercept 根据一致性得分重新加权输出。 然而,由于过度依赖个体预测,这种方法很容易出现不令人满意的结果。 为了在感知精度和推理延迟之间进行权衡,相邻车辆之间的中间特征融合已被广泛探索,以追求良好的性能增益。 Wang et al. 提出了一种基于图的方法,通过卷积门控循环单元(ConvGRU)迭代捕获和更新每辆车的地理信息。 为了强调代理的重要性,DiscoNet通过边缘权重矩阵丢弃车辆之间高度相似的像素,并通过知识蒸馏构建整体几何拓扑。 为了模拟现实世界中传输延迟的影响,Liu et al.提出了一个三步握手通信协议,包括请求、匹配和连接,确定与哪个协同者交互。 此外,Liu et al.考虑了一种可学习的自我注意机制来推断自我代理是否进行额外的通信以获得更多信息。 Hu et al.开发了一种新颖的稀疏置信图来掩盖特征压缩的无关紧要元素。 作为车载摄像头的细粒度和密集预测,Xu et al.研究了 BEV 平面下的仅相机地图预测框架,该框架利用新颖的融合轴向(FAX)注意来重建地平面上的动态场景。 尽管上述算法取得了显着的性能,但它们主要关注局部区域中 CAV 之间的空间相关性,而没有用于重叠语义细化的全局特征交互。 在这项工作中,我们尝试设计一种名为 V2VFormer++ 的新型中间特征协作,它显式地捕获每辆车之间的全局响应,并且自我网络对利用基于变压器的操作以位置方式关注局部判别特征。
图1 协同感知的优势。 左边。 汽车在路口行驶时未能提前感知公共车辆(PV)的潜在威胁。 借助联网自动车辆(CAV),可以将整体视图信息传输到自车(Ego),以规避盲点区域的交通冲突。 右边。 检测结果在鸟瞰(BEV)空间中可视化。
方法的整体设计
在本节中,我们将介绍所提出的多模态车对车协同感知框架V2VFormer++。 如图2所示,整体架构主要包含四个部分:(1)用于多视图相机和LiDAR点特征提取的模态特定backbone; (2)像素点融合模块,用于自适应地聚合语义和几何信息; (3)具有自注意力机制的信息区域的全局局部transformer; (4)用于产生目标定位和分类分数的预测头。
B. 像素点融合模块
总的来说,DCF 提供了一种有效的解决方案,可以在统一的自上而下平面中利用两种模态的通道语义,并且由于其高效的设计,这个简单的模块不会降低推理速度。
C. 全局-局部Transformer
D. 预测头
实验对比一览
在本节中,我们对车辆间感知基准进行定量和定性实验,以研究我们提出的框架及其组件的有效性。 详细信息(即数据集、实施、消融研究等)将描述如下。
A 数据集
OPV2V是一个大规模的车车协同感知数据集,它建立在OpenCDA平台和CARLA模拟器之上。 一般来说,它包含由四个车载摄像头和一个64通道LiDAR传感器生成的12k帧3D点云和RGB图像,230k个3D框注释覆盖了完整的360°视图。 在我们的实验中,沿 x、y 和 z 轴的检测范围分别设置为 [-64,64] m、[-40,40] m 和 [-3,1] m。 该模型使用 6765 个和 1980 个样本进行了训练和验证,我们在 2170 个 Default 和 550 个 Culver City 分割上测试了最终的协同性能。
V2X-Sim 2.0 是用于车辆到一切(V2X)感知评估的综合多模态基准,由 CARLA 和微交通模拟器 SUMO 联合仿真。 它由 3 个 CARLA 城镇交叉口的 20 秒交通流中的 100 个场景组成,包含 37.2k 训练数据、5k 验证数据和 5k 测试数据。 每个场景有 2-5 个 CAV,配备 6 个摄像头和 1 个 32 通道 LiDAR,以及 GPU 和 IMU 传感器。 同样,在我们的研究中,感知区域被限制为[-32,32]m×[-32,32]m×[-3,2]m。
B 实现细节
实验平台基于8块NVIDIA Tesla V100 GPU,我们默认定义通信范围为70m。 对于 OPV2V,我们引入课程学习策略来模仿人类认知机制:模型在 sim 模式下训练 35 个 epoch,并在真实设置(例如,定位误差、异步开销等)下训练另外 10 个 epoch。由 Adam优化,初始学习率为 0.0002,权重衰减为 0.02,余弦学习率调度器。 此外,还采用了一些技巧(即预热和提前停止)来保证训练稳定性,并将 NMS 后处理的分数和 IoU 阈值分别设置为 0.6 和 0.15。 对于V2X-Sim 2.0,我们遵循DiscoNet设置。 NMS 过程的分数和 IoU 阈值设置为 0.6 和 0.15。
将分辨率为520×520像素裁剪的图像输入ResNet-34编码器进行多尺度特征提取,生成的BEV网格为0.25m。 我们在分层 SCA 模块中采用四个注意力头 (h = 4),窗口大小 D = (8,8,16) 和 G = (16,16,32)。 此外,体素大小沿 x-y-z 轴设置为 (0.25, 0.25, 4),在全局局部变换器中,窗口大小 N 为 4。除非另有说明,我们报告 3D 检测平均精度 (AP) 为 0.5, 0.7 IoU 阈值进行公平比较。
C 定量结果
表 I 说明了我们提出的 V2VFormer++ 和四个对应方案在 OPV2V Default 和Culver City上的协同感知结果。 一方面,我们从每个单视图模块中删除相机流,并评估仅 LiDAR 的检测性能,称为 V2VFormer++-L。 据观察,我们提出的方法在 Default 和 Culver City 集上优于 CoBEVT 和Where2comm方法,性能提升了 2.3% ∼ 7.5% 和 2.0% ∼ 2.8% AP@0.7,这表明了其有效性 和优越感。 另一方面,我们将相同的相机流附加到仅 LiDAR 的协同检测器(即 V2VNet、CoBEVT、Where2comm)中,并评估多模态检测精度。 我们提出的 V2VFormer++ 给出了最佳的协同感知性能:它在默认 IoU 阈值 0.5 和 0.7 下实现了 93.5% 和 89.5% AP,比三种替代方案高出 0.3% ∼ 0.9% AP@0.5 和 0.1% ∼ 1.7% AP@ 0.7。 此外,V2VFormer++在Culver City上与第一梯队Where2comm相当(仅落后0.2% AP),展示了其竞争力和适应性。
表1:COBEVT [48]、WHERE2COMM [16]、V2VNET [14] 和 V2VFORMER++ 在 OPV2V 测试分割上取得的检测结果,我们用粗体字体突出显示 0.5 和 0.7 IOU 阈值时的最佳精度
表2:WHEN2COM、WHO2COM、V2VNET、DISCONET 和 V2VFORMER++ 在 V2X-SIM 2.0 测试集上取得的检测结果。 此外,我们列出了上界和下界性能,并且还用粗体突出显示了 0.5 和 0.7 IOU 阈值时的最佳精度
同时,V2X-Sim 2.0测试集上的协同检测结果也列于表II中,我们基于DiscoNet重现了不同的融合策略(例如早期、中期和后期)。 我们的 V2VFormer++ 实现了最先进的协同检测精度,分别为 72.7% AP@0.5 和 65.5 AP@0.7。 与其他中间对应部分(例如 DiscoNet)相比,V2VFormer++ 在两个 IoU 阈值下都获得了超过 10% 的 AP 提升,这意味着所提出的特征协同的进步。 此外,它的表现比上限高出 9.4% AP@0.5 和 5.3% AP@0.7 。 我们认为,由于原始点云噪声较大,该模型无法利用相邻 CAV 的有意义信息,而我们的中间表示提供了丰富的目标语义和几何信息,以合理地促进协同感知性能。
D 消融研究
为简单起见,将对 OPV2V Default 和 Culver City 进行消融研究,以衡量我们提出的框架的有效性和稳健性。
1)组件的有效性:为了澄清,我们选择 V2VNet作为基准,在Default上达到 85.0% AP@0.5 和 72.0% AP@0.7%,在Culver City上达到 80.9% AP@0.5 和 64.0% AP@0.7, 分别如表III所示。 当附加具有动态通道融合(DCF)的相机分支时,它在 0.5 和 0.7 IoU 阈值下提供 7.6% ∼ 19.0% 的精度增益。 此外,我们用全局局部transformer取代了 V2VNet 提出的空间感知图神经网络(GNN),以衡量其对协同感知的贡献。 同样,它在默认情况下提供 10.0% AP@0.7 收益。 最后,V2VFormer++将具有全局局部transformer的DCF纳入基线,并观察到最佳性能,证明了每个组件的有效性。
为了进一步研究单车视图下的异构数据融合,我们用相机流扩展了仅 LiDAR 的检测器(例如,V2VNet、CoBEVT 和Where2comm),并采用两种相机-LiDAR 聚合方法 进行比较。 如表IV所示,动态通道融合(DCF)在不同协作框架之间提供了比串联(Concate)更好的多模态特征组合:尽管性能略有下降,但它稳定地在Default 和 Culver City上提供0.4%∼1.0%AP@0.5和0.4% ∼ 4.0% AP@0.7。 受益于通道池化和重新加权操作,DCF能够充分利用来自各种模态的语义和几何信息,并且富有表现力的多模态表示有利于协同性能的增强。
表3 各个组件对 OPV2V 测试分割的有效性的消融研究。 准确度的提升/下降分别在括号中用不同的颜色突出显示
表4 多模态融合方法对 OPV2V 测试分割的性能贡献的消融研究。 准确度的提升/下降分别在括号中用不同的颜色突出显示
2)鲁棒性测试:为了分析协同感知的鲁棒性,我们首先对几种多模态感知框架进行课程学习,并列出了OPV2V Default集在不同模式配置下的协同结果,如表五所示。 Sim/Real 定义了不带/带数据压缩的理想/现实世界传输,而Perfect/Noisy 条件代表不带/带定位误差(例如高斯噪声)和通信延迟(超过 200ms 的均匀分布)的理想/损坏环境。
显然,所提出的 V2VFormer++ 显示了针对不同损坏的强大鲁棒性:它在 Sim+Noisy 级别上实现了 84.9% AP@0.5 和 58.5% AP@0.7 的良好检测精度,并在 Sim+Noisy 级别上提供了 6.0% 和 16.9% AP 增益。 当在真实环境中从 Perfect 转换到 Noisy 时,所有协同的准确度都会大幅下降,例如,V2VNet 中的 AP@0.5 为 6.3%,AP0.7 为 10.9%。 我们的 V2VFormer++ 报告可接受的性能下降为 2.1% AP@0.5 和 9.6% AP@0.7,表明具有良好的稳定性和通用性。
表5 针对 OPV2V 默认分割上各种模式配置的模型鲁棒性消融研究。 准确度增益分别在括号中突出显示
图 6. 稳健性测试的消融研究。 值得注意的是,所有实验都是在 OPV2V 默认分割上进行的。 左边。 IoU阈值0.7时位置误差与AP结果的关系; 中间。 IoU阈值0.7时航向误差与AP结果的关系; 右边。 时间延迟和AP结果之间的关系在0.7 IoU阈值下。
图7.动态通道融合(DCF)模块激活的注意力图的可视化结果。 从左到右随机选择四种常见场景(即直线、合并、曲线和交叉),并在每列中相应列出一对激光雷达真值(GT)和注意力图。 注意到激活值较大的点意味着该区域发生目标的可能性较高。
图8.全局-局部transformer协同策略激活的注意力图的可视化结果。 从左到右随机选择四种常见场景(即直线、合并、曲线和交叉),并在每列中相应列出一对激光雷达地面实况(GT)和注意图。 注意到激活值较大的点意味着该区域发生目标的可能性较高。
图 9. OPV2V 测试分割中的检测可视化。 从上到下,我们列出了原始相机图像、LiDAR 真值(GT)以及 CoBEVT [48]、Where2comm [16] 和 V2VFormer++ 实现的感知结果。 注意到GT和预测框分别用红色和绿色绘制,我们还用蓝色圆圈突出了V2VFormer++的优越性和先进性。 显然,与其他方法相比,我们提出的方法显示出更准确、更鲁棒的协同检测性能,即使在严重遮挡、盲点和超线区域也是如此。
E 定性结果
最后通过定性实验深入分析fuison模块的效果。 我们还展示了协同检测结果,以反映我们提出的 V2VFormer++ 的优势。
1)注意力图:如图7和图8所示,我们在直线、合并、曲线、交叉点处分别展示了一对LiDAR真值(GT)和DCF在全局局部transformer协同后的激活图评价。 得益于有效的 DCF 设计,激活点可以大致对应 LiDAR GT 中的目标区域,从而使模型能够聚焦于物体的高电位或感兴趣区域 (RoI)。 DCF 以动态逐点方式探索特征通道语义,因此可以从相机和 LiDAR 模式中充分利用有价值的信息。 类似地,全局-局部transformer通过通道方式和位置感知重要性使用来自相邻 CAV 的多视图表示。 它将提供更广泛和更长的探测范围,并且突出显示的点可以引导模型检测被遮挡或很少看到的物体。
2)检测可视化:如图 9 所示,我们显示了 V2VFormer++ 与 CoBEVT [48] 和Where2comm [16] 方法的比较可视化结果。 通常,我们提出的算法始终保持非常精确和稳健的检测结果,特别是在具有挑战性和模糊性的场景中。 它在其他同类技术无法做到的难样本(即遮挡、盲点和超线区域)中仍然表现出出色的感知能力,表明了其优越性和先进性。
潜力与优势
在本文中,我们首次尝试了具有多模态表示的车车协同框架,称为V2VFormer++。 对于单个车辆,提出了具有稀疏交叉注意(SCA)变换和动态通道融合(DCF)的双流架构,用于统一鸟瞰(BEV)空间下的相机-LiDAR特征聚合,从而利用语义 和完整的几何信息。 为了更好地利用相邻 CAV 的车辆间相关性,我们设计了一种两阶段全局-局部transformer协同策略,其中通道token混合器 (CTM) 捕获分散在每个位置地图和位置感知融合 (PAF) 中的全局响应并从局部角度探索每个自车网络对的空间关系。 在 OPV2V [19] 和 V2X-Sim 2.0 [20] 基准上进行了实证实验,结果证明我们提出的 V2VFormer++ 我们的方案以大幅优势领先于所有同类方案,表明了其有效性和优越性。 此外,消融研究和可视化分析进一步揭示了其对现实场景中各种干扰的强大鲁棒性。
未来的工作将继续研究不利因素如何影响多智能体感知算法,例如延迟、有损包等。此外,如何优化推理效率对于实际部署也相对重要。
#基于视觉方案の车辆速度、距离估计
论文名称:Vision-based Vehicle Speed Estimation: A Survey
在精确检测车速车距的方案中,视觉方案是非常具有挑战性的,但由于没有昂贵的距离传感器而大幅降低成本,所以潜力巨大。本文综述了基于视觉的车辆速度、距离估计。并建立了一个完整的分类法,对大量工作进行分类,对涉及的所有阶段进行分类。除此之外,还提供了详细的性能评估指标和可用数据集概述。最后,论文讨论了当前的局限性和未来的方向。应用背景 车辆速度的准确估计是智能交通系统(ITS)的关键组成,这需要解决诸如同步数据记录、表示、检测和跟踪、距离和速度估计等问题。常见的速度估计应用场景包括自动驾驶、智能交通监控,分为固定传感器测试和移动相机/车辆下的测试。论文主要介绍了在固定位置下基于camera的速度与距离估计!下图为速度估计的整体流程:主要包括检测跟踪、距离估计、速度估计等;
主要技术
上图汇总了基于视觉的车速测量系统的主要部分,Input data 、Detection and tracking、Distance and speed estimation、Application domains;
1.输入数据
基于视觉的测速测距方案输入为图像数据,对于每辆车,将有一系列图像,从第一次出现到最后一次出现。可用图像的数量将取决于摄像机相对于道路的姿态、焦距、帧速率和车辆速度。现有camera主要包括:交通camera和speed camera;其他形式的输入数据包括车辆属性,如车辆类型、关键点、车牌大小等。camera标定在提供内外参数方面起着关键作用。路段尺寸的先验知识提供了计算道路与camera之间的外部关系甚至车辆速度的一些重要信息。
2.检测和跟踪
必须在所有可用图像中检测车辆或其某些代表性特征。随着时间的推移跟踪车辆或显著特征对获得速度测量至关重要,可以应用不同的方法来处理这两个任务。
3.距离和速度估计
速度估计本质上涉及具有相关时间戳的距离估计。存在不同的方法来计算车辆与某些全局参考的相对距离,以及不同的方法计算车辆的速度。
4.应用领域
主要应用在交通监控、预测、控制、自动驾驶和移动机器人领域!下图是机动车速度估计的全系列技术栈!
分类
论文对135篇车速检测相关论文展开了调研,从输入开始,紧接着是检测、跟踪、距离和速度估计,最后是速度测量精度方法!论文对每个模块的工作进行了分类。
1.Camera设置
主要涉及摄像机固有参数(传感器尺寸和分辨率、焦距)和外部参数(相对于道路平面的位置,包括基于无人机的摄像机)以及摄像机数量(单摄像机、立体摄像机或多摄像机)。根据这些参数,投影在图像平面上的真实场景可以表示沿短或大路段的一条或多条车道。根据这种配置以及车辆相对于camera的相对位置,能够得到其中一个最重要的变量:meter与像素的比率,即每个像素代表的路段部分。该比率越低,估计距离和速度的精度越高,由于透视投影模型,该比率与距camera的distance平方成正比,这意味着在长距离进行的测量具有非常差的精度。
2.相机标定
为了在真实世界坐标中提供测量,需要精确估计摄像机的内部和外部参数。最常见的方法是执行软标定,即在实验室标定或使用传感器和透镜特性近似固有参数,使用手动或自动程序获得外部参数(道路平面和摄像机之间的刚性变换)。硬标定涉及在已安装摄像机的情况下联合估计内参和外参。也可以手动执行或自动执行。在某些有限的情况下,摄像机标定被忽略。
3.车辆检测
由于摄像机大多是静态的,在大多数情况下,车辆检测通过建模和减去背景来解决。其他方法是基于特征的,例如,检测车牌或车辆的其他特征。最近,使用基于学习的方法识别图像中的车辆越来越多。
4.车辆跟踪
车辆具有平滑和稳定轨迹的能力是处理车辆速度检测的关键问题,可以将车辆跟踪分为三类。首先,基于特征的,它跟踪来自车辆的一组特征(例如,光流)。第二,这些方法侧重于跟踪blob的质心或车辆的边界框。第三,这些方法侧重于跟踪整个车辆或其特定部分(如车牌)。
5.距离估计
对于单目系统,车辆距离的估计通常使用一组约束条件进行计算,例如平坦道路假设,包括基于单应性和使用增强指示线、模式或region的方法,或者通过使用关于一些物体的实际尺寸的先验知识(例如,车牌或车辆的尺寸)。当使用立体视觉时,这些限制得到缓解。
6.速度估计
在少数情况下,检测车辆速度的问题被提出为检测路段上的交通速度的问题,即直接获得平均道路速度值。然而,在大多数情况下,检测是在单个车辆上进行的。需要关于camera帧速率的先验知识或每个图像的准确时间戳来计算测量之间的时间。使用连续的或非连续的图像来估计速度是一个基本变量,对精度有很大影响。如何整合所有可用测量(瞬时、平均、最佳等)也是影响测量最终精度的关键因素。
7.生成真值
目前的工作主要包括:汽车速度计、基于距离的技术(如雷达或激光)、基于GPS的技术(包括标准GPS、GPS里程表和DGPS)、光屏障和路面传感器(如压电或电感)。
相机设置与标定
1.相机的设置
camera设置直接影响速度估计方法的精度。考虑的第一类是摄像机位置,包括无人机摄像机和交通摄像机,这些摄像机可以根据其高度大致分类为距离(≥ 5m)或close(<5m)交通摄像头。在某些情况下,摄像机位于道路一侧,提供车辆的侧视图。大多数作品都基于单目系统,但还可以找到一些基于stereo的方法和非stereo多摄像机设置。尽管大多数方法都基于CCD或CMOS传感器,但也可以找到一些使用基于事件的摄像机[16,17]和基于生物传感器[147]的作品。考虑到相机分辨率,可以预期随着时间的推移像素分辨率会逐渐增加,这主要是由于硬件的进步。然而,情况并非如此,大量作品的分辨率低于或等于640×480像素(VGA)。分辨率不仅影响图像处理检测技术的精度,还影响距离估计的精度。分辨率越高,meter像素比越低。焦距也是一个基本参数,通常与摄像机高度、路段长度和视野覆盖的车道数有关。对于特定的摄像机高度,焦距越大,距离和速度测量的精度越高。大多数作品使用中低焦距(≤ 25mm),因为它们被设计为覆盖多车道和大的道路延伸。只有少数作品含蓄或明确地强调需要长焦距来提高速度估计的准确性,即使系统仅覆盖一条车道。因此,根据摄像机的内外(位置w.r.t.道路)参数,我们最终将不同的场景投影到图像平面中。如下图所示,可以大致定义三种类型的场景:High meter-to-pixel ratio、Medium meter-to-pixel ratio、Low meter-to-pixel ratio。
2.系统的标定
精确的摄像机标定对于基于视觉的目标距离和速度估计至关重要。无论是假设车辆在平坦道路上行驶,用于单目系统还是使用stereo配置,从像素坐标获得精确真实世界测量的能力在很大程度上取决于精确的系统标定。对于单目系统,针孔相机模型提供了一个通用表达式,用于描述图像平面(u,v)中的2D像素与3D真实世界坐标系(Xw,Yw,Zw)之间的几何关系,在这种情况下,该坐标系放置在道路平面上并假设为平坦道路形状:
单目摄像机标定问题是估计内参、RT的问题。如下图所示,在处理用于车速估计的摄像机标定时,采用了两种主要方法。首先,软标定使用标定模板(例如棋盘)在实验室中估计K,或假设数据表中提供的参数(传感器分辨率、像素大小和焦距),然后在现场计算[R,T]。第二,硬标定,在现场同时计算K和[R,T]。
计算相机外部参数的最常见方法之一是使用消失点。当投影到图像平面时,3D真实世界坐标系中的一组平行线在唯一的2D点处相交。该点通常称为消失点。在这种情况下,明显的一组线是道路标记(包括实线和虚线车道线)和通常具有高对比度的道路边缘。消失点的位置允许计算旋转矩阵R,然后使用图像中某个对象或区域的真实世界维度的知识来获得平移矩阵T。执行外部参数标定的另一种常见方法是使用道路平面上存在的已知几何静态特征,然后计算单应变换。
可以通过使用放置在道路平面上的标准(例如棋盘)或特殊标定模板来解决获取相机的内外参数的硬标定问题。这种技术的主要缺点是需要暂时停止道路上或车道上的交通。只有少数方法以自动方式处理内部和外部参数的校准。最常见的方法是从两组或三组相互垂直的平行线计算两个或三个正交消失点[133]。如[134]所述,这些消失点可以从场景中存在的静态和移动(本例中为车辆)元素中提取。在[77]中,随时间跟踪的车牌被用作校准模式,以硬校准系统。最复杂的方法将细粒度分类与车辆关键点/姿态检测[136]相结合,以确定特定车辆品牌和型号[135](因此,确定其真实尺寸),从而执行软[90]或硬[101]系统标定。
无论标定中使用何种方法,无论是计算平移向量还是完全单应性,都必须事先知道真实世界中某些特征/对象的尺寸。事实上,计算所谓的比例因子(m/px)以从像素到真实世界坐标的转换是使用单目系统处理距离和速度估计时要解决的关键问题之一。最常见的特征是人工测量的路段/区域的道路/车道宽度或长度之前已知物体的尺寸,如车辆或车牌,以及车道标记的长度和频率。
最后,必须考虑基于stereo的方法,这些方法在实验室或现场使用标准stereo标定技术和模式进行硬校准。除了每个摄像机的固有矩阵K之外,stereo系统还需要计算基本矩阵,其中包括从一个摄像机到另一个摄像机的非本征变换。由于立体系统能够从两幅图像中的2D像素获得3D真实世界测量值(在解决对应问题后),因此无需计算道路平面和摄像机之间的外部变换,但在任何情况下,都可以手动计算[137]或自动计算[138]。
检测和跟踪
1.检测任务
检测任务主要有静态背景、基于特征、基于车牌、基于learning方式;除了基于无人机的系统外,大多数方法都基于静态摄像机,由于存在静态背景,车辆检测任务更加容易。我们甚至可以采用最简单的逐帧方法找到相当数量图像,然后采用阈值法进行图像分割。执行车辆检测的最常见方法是基于背景减法,然后是一些形态学运算和blob分析方法。使用不同的方法进行背景相减,包括基于灰度和颜色的方法、高斯混合模型、自适应背景建模等。在某些情况下,逐帧或背景减法与某些特征检测器(例如,边缘、角或KLT特征)相结合。
一些方法基于对车辆区域内区域中分组的不同类型特征的检测,例如,在背景减法之后,以及依赖于边缘、灰度特征、二进制特征、SIFT/SURF特征或KLT特征。
尽管车牌的外观可能会因国家和车辆类型的不同而略有不同,但一般而言,它是任何车辆的同质和独特元素。这使得车牌成为车辆检测系统非常有吸引力的目标。因此,当摄像机分辨率足够大时,可以应用车牌识别(LPR)系统。LPR系统通常至少分为3个步骤:检测或定位、字符分割和字符识别。在这种情况下,为了检测车辆,只需要应用第一步,并且有许多方法(参考了关于该主题的多个具体调查)。基于学习的方法主要是一些目标检测方案,YOLO、SSD、Faster RCNN、Nanodet、YOLOX系列,输出检测位置与类别;
2.跟踪任务
速度检测是一个多帧问题。一旦检测到车辆或车辆的某些部件/特征,通常采用跟踪方法对噪声检测进行滤波和平滑。跟踪隐含地涉及解决数据关联问题(例如,匈牙利算法),特别是对于具有多个对象的情况[148]。一般而言,在描述不同的跟踪方法时,可以考虑两个主要维度。首先,根据被跟踪的元素和/或其part的类型(方法),其次,根据用于执行跟踪的具体方法(方法)。主要车辆跟踪方法的视觉表示如下图所示,可以看出将不同的方法分为四大类:
首先,基于特征的方法,将车辆跟踪问题视为特征跟踪问题。在大多数情况下,在应用背景减法或基于学习的方法后,特征是车辆区域内的二进制或灰度值。当跟踪被视为光流问题时,通常会考虑KLT特征或拐角,分析车辆区域内的运动矢量。其他方法跟踪特征是二进制模式、边缘或SIFT/SURF描述符。
其次,还可以找到专注于跟踪代表车辆区域的质心方法,该区域可以被视为轮廓(凸壳或凹壳),或一些模型,例如轮廓的凸壳[40]、椭圆[75]或拟合到检测到的blob的边界框。在任何情况下,使用质心作为车辆的代表状态是非常不可靠的。一方面,大多数blob检测方法不是很精确,并且由于多个因素(阴影、重叠、接近物体等),车辆轮廓可能会在序列中变化。但即使在blob检测非常精确(例如基于学习)的情况下,透视的变化也意味着影响质心位置的显著变化。只有在检测准确且视角变化不相关的非常特殊的情况下(例如,在基于无人机的系统中),才有理由使用这种方法。
第三组方法是使用车辆的整个区域(基于轮廓或边界框)来执行跟踪的方法。这是迄今为止使用最广泛的方法。
最后,许多方法关注于车牌的跟踪。不知何故,这种方法不计算车辆的速度,而是计算车牌的速度,因为车牌的移动与车辆的移动是一致的,因此完全等效且完全有效。
大多数工作通过模板、区域或特征匹配/相关方法,解决了采用检测跟踪方法后的车辆跟踪问题,通过检测车辆在预定义区域或指示线上的交叉。这些方法解决了数据关联问题(为每个轨迹的每个对象关联唯一标识符),但不过滤跟踪对象的状态。通过检测方法进行跟踪的一种特殊情况是车牌,因为它们允许使用光学字符识别(OCR)系统作为解决数据关联问题的支持,使跟踪系统更加稳健。使用KLT特征进行车辆检测后,通常会跟踪KLT以检测光流。该方法仅适用于图像之间的车辆位移较小的情况,这不适用于获得准确的速度测量。贝叶斯滤波的使用仅限于经典的线性卡尔曼滤波器,该滤波器通常用于考虑恒定速度模型(不太适用于非常大的路段)。在[89]中,简单在线和实时(排序)(基于卡尔曼滤波)跟踪和扩展版深度排序也被应用。
车辆距离和速度估计
camera是生成投影到2D平面中的3D世界的离散化表示的传感器,考虑到光学中心和像素之间的立体角,真实世界坐标中的面积A随距离Z呈二次增加(Apx为单个像素的面积):
fx为x轴的焦距,△X为已知目标的尺寸,nm代表表示像素检测误差!为了使物体或其特征的距离估计误差最小化,需要:使用望远镜镜头(高焦距),因为误差随着焦距的增加而减小;在立体系统中使用大的基线,或在单目系统中使用已知尺寸尽可能大的物体;当车辆远离摄像机时,避免对其进行测量,物体越近,距离估计误差越小;
1.距离估计
双目方法在真实世界坐标系中测量距离是精确估计车速需要解决的最关键问题,当使用立体视觉时,这个任务很简单[42、60、61、74、80、92、100、112]。对于每个检测到的车辆,可以使用车辆区域中包含的像素的视差值直接获得相对距离。然而由于实际应用问题,双目估计深度方案使用较少!单目方法对某些特征、物体或道路部分/路段的真实坐标中的尺寸的了解是使用单目系统估计距离的基本问题。这通常被称为将像素转换为真实世界坐标的比例因子。另一个常见要求是考虑平坦道路假设。如下图所示,我们将基于单目的距离估计方法分为三组:
首先,基于指示线、增强线或区域[19、20、23、24、26、28、32、38、47、59、79、86、87、99、107、124]。这些方法不需要摄像机系统的校准,而是测量道路上两条或多条虚拟线之间的实际距离,或道路区域的实际大小。
然后,距离估计问题被提出为一个检测问题,其中每当车辆穿过预定义的虚拟线或区域时,所有车辆都在相同的距离处被检测。由于虚拟线或区域位于道路上,因此精确的距离估计涉及车辆某个部分的接触点的精确位置。车辆的这一部分在第二个位置应相同,以获得速度的一致估计。由于透视约束、空间(取决于摄像机分辨率和摄像机到车辆的距离)和时间(取决于摄像头帧速率和车辆速度)离散化问题、阴影等,这是一项需要解决的复杂任务。这些问题可以通过使用多条指示线来缓解[20,107]。其次,基于单应性计算的方法将平面(道路)从3D投影空间线性变换为2D投影空间(摄像机图像平面)。这样,图像可以转换为鸟瞰图(BEV),其中像素位移可以直接转换为真实世界距离。这种方法最常用于固定系统和无人机系统。如下图所示,单应性的计算涉及摄像机的内部和外部参数的校准以及场景某些部分的真实尺寸的先前知识。生成的BEV图像将所有对象视为在道路平面上,这意味着车辆形状的变形。这并不特别重要,因为用于计算距离的点通常对应于车辆和道路之间的接触点,尽管由于系统的角度和道路上运动的错误假设,该假设并不完全准确。与使用指示线相比,该方法的主要优点是可以在道路上的任何点进行车辆检测,因此摄像机帧速率和车速不会对距离估计产生负面影响。然而,需要非常精确的系统校准。
第三,基于距离估计公式的方法,根据物体的真实尺寸,包括车牌和车辆。一方面,基于车牌尺寸的方法对低meter像素比和像素定位误差非常敏感。另一方面,基于车辆尺寸的此类方法需要应用细粒度车辆模型分类系统[135],以识别特定模型并使用其特定尺寸。
2.速度计算
Time/distance between measurements一旦计算出车辆或其一部分的相对距离,速度计算就相对简单了。因此,第一个要求与每个测量(或图像)关联特定的时间戳有关。可以使用关于摄像机帧速率的先验知识。然而,对于每个记录的图像或从记录系统时钟(可以使用NTP服务器[80])获取的测量值,包含特定的时间戳更为准确和鲁棒。根据摄像机姿态w.r.t.车辆和道路以及车辆速度,每辆车可获得一组N个测量值。要做出的第一个决定是使用测量之间的距离来获得速度值。然而,大多数工作建议使用连续测量(在第t帧和第t+1帧)来计算每辆车的速度值。如下图所示,该技术倾向于提供噪声值,因为距离误差与车辆行驶的距离具有相同的数量级:
在使用非连续图像的情况下,论文区分了几种技术。首先,使用测量之间的固定距离或区域(例如,使用指示线或区域的方法)。第二,使用测量之间的预定义帧数或固定时间间隔(它们是等效的)。其他方法使用车辆第一次和最后一次检测之间的最大可能距离。最后,可以确定一些利用两个不同摄像机[80]或无人机摄像机[106]的不同视角进行车辆检测的技术。测量积分一旦计算出车辆的所有N个速度值,下一步要做的决定是如何积分所有测量值以计算最终车辆速度。请注意,所有基于虚拟指示线或区域的方法都是基于单次触发(N=1),因此严格来说,不应用测量积分,这种方法通常称为平均速度检测。大多数方法执行瞬时速度检测,即计算车速并将其作为每对测量的输出,无论是连续的还是非连续的。在某些情况下,瞬时速度使用不同的技术进行滤波,如移动平均[98]、多项式滤波[129]或使用特定跟踪器(例如卡尔曼滤波器)。另一种常见方法是计算所有可用(N)速度测量值的平均值。在[80]中,仅使用对应于最小系统速度误差的最佳速度值计算平均值。
数据集和评测标准
1.数据集
相关数据集较少,主要包括 AI CITY CHALLENGE(英伟达)、BrnoCompSpeed、 UTFPR dataset、QMUL junction dataset等!
2.评测标准
为了测量系统产生的速度误差,有必要使用度量来明确评估其准确性。最常用的度量是绝对或相对平均绝对误差(MAE),以百分比表示。MAE通常提供有其他变量,例如标准偏差或其他统计度量,以限制速度估计系统的精度。
除了MAE,还可以找到其他度量,其中计算数学函数的总误差,包括并建模速度检测系统的误差源,如像素检测误差、长度测量误差或摄像机校准误差。利用这些已知误差,以及一些误差传播技术,例如使用偏导数的不确定性传播,可以精确地获得总系统误差。
最后,均方误差(MSE)和均方根误差(RMSE)的使用已在几项工作中提出。MSE/RMSE使用这两个值之间的平方差之和来测量估计值和被测量值之间的“距离”。在某些工程中,该方法用于测量相对距离误差,最后测量速度误差,即实际值与计算值之间的绝对差。
#UniPAD
自动驾驶通用预训练范式, A UNIVERSAL PRE-TRAINING PARADIGM FOR AUTONOMOUS DRIVING
论文链接:https://arxiv.org/pdf/2310.08370.pdf
代码链接:https://github.com/Nightmare-n/UniPAD
作者单位:上海人工智能实验室 浙江大学 香港大学 中国科学技术大学 悉尼大学 Zhejiang Lab
在自动驾驶的背景下,有效特征学习的重要性得到了广泛认可。虽然传统的 3D 自监督预训练方法已经取得了广泛的成功,但大多数方法都遵循最初为 2D 图像设计的想法。本文提出了 UniPAD,一种应用 3D 体积可微渲染(3D volumetric differentiable rendering)的新型自监督学习范式。UniPAD 隐式编码 3D 空间,有助于重建连续的 3D 形状结构及其 2D 投影的复杂外观特征。本文方法的灵活性使得能够无缝集成到 2D 和 3D 框架中,从而能够更全面地理解场景。本文通过对各种下游 3D 任务进行广泛的实验来证明 UniPAD 的可行性和有效性。本文的方法将基于激光雷达、摄像机和激光雷达-摄像机的基线分别显着提高了 9.1、7.7 和 6.9 NDS。值得注意的是,本文的预训练 pipeline 在 nuScenes 验证集上实现了 3D 目标检测的 73.2 NDS 和 3D 语义分割的 79.4 mIoU,与之前的方法相比,实现了最先进的结果。
据本文所知,本文是第一个探索一种新颖的 3D 可微渲染(3D differentiable rendering)方法,用于自动驾驶背景下的自监督学习。
该方法的灵活性使其易于扩展到2D backbone的预训练。通过新颖的采样策略,本文的方法在有效性和效率上都表现出了优越性。
本文在 nuScenes 数据集上进行了全面的实验,其中本文的方法超越了六种预训练策略的性能。包含七个 backbones 和两个感知任务的实验为本文方法的有效性提供了令人信服的证据。
网络设计:
本文提出了一种专为有效 3D 表示学习而定制的新颖的预训练范式,它不仅避免了复杂的正/负样本分配,而且还隐式提供了连续的监督信号来学习 3D 形状结构。如图 2 所示,整个框架将 masked点云作为输入,旨在通过 3D 可微神经渲染在投影的 2D 深度图像上重建缺失的几何形状。具体来说,当提供masked LiDAR 点云时,本文的方法采用 3D 编码器来提取分层特征。然后,通过体素化将 3D 特征转换到体素空间。本文进一步应用可微分体积渲染方法来重建完整的几何表示。本文方法的灵活性有助于其与预训练 2D backbone的无缝集成。多视图图像特征通过 lift-split-shoot (LSS) 构建 3D volume(Philion & Fidler,2020)。为了保持训练阶段的效率,本文提出了一种专为自动驾驶应用设计的节省内存的光线采样(ray sampling)策略,其可以大大降低训练成本和内存消耗。与传统方法相比,新颖的采样策略显着提高了准确性。
图 1:本文对 3D 检测和分割进行预训练的效果,其中 C、L 和 M 分别表示摄像机、LiDAR 和融合模态。
图 2:整体架构。本文的框架采用 LiDAR 点云或多视图图像作为输入。本文首先提出 mask 生成器来部分 mask 输入。接下来,特定于模态的编码器适用于提取稀疏可见特征,然后将其转换为密集特征,其中 mask 区域填充为零。随后将特定于模态的特征转换到体素空间,然后是投影层以增强体素特征。最后,基于体积的神经渲染为可见区域和 mask 区域生成 RGB 或深度预测。
实验结果:
最近,新论文推陈出新的速度着实太快有点读不过来的感觉。可以看到的是,语言视觉多模态大模型融合已经是业界共识了,UniPad 这篇文章就比较有代表性,多模态的输入,类世界模型的预训练基座模型,同时又方便扩展到多个传统视觉应用。并且还解决了将大语言模型的预训练方法用到 3D 场景的问题,所以给统一的感知基座大模型提供了可能。
UniPAD 是一种基于 MAE 和 3D rendering 的自监督学习方法,可以训练一个性能优秀的基座模型,继而可以在该模型上微调训练下游诸如深度估计、目标检测、分割等诸多任务。因为该工作设计了一个统一的 3D 空间表示方法,使得它可以轻松地融入到 2D 和 3D 框架中,体现了较大的灵活性,这是很符合基座模型应该的定位的。
阅读时的思考与疑问点:
掩码自编码技术 和 3D 可微分渲染技术的关系是什么?简单说:掩码自编码是为了利用 Autoencoder 的自监督训练能力,渲染技术是为了生成图片后和原始图片之间进行损失函数计算并进行监督训练。所以逻辑还是很清晰的。
这篇文章在使用基座模型预训练的方法,再微调下游的检测方法和分割方法。这个方法也可以帮助理解当下的大模型与下游任务的配合方法。
看起来是没有结合时序信息的。毕竟纯视觉 50.2 的 NuScenes NDS 目前在带时序的检测方法(StreamPETR、Sparse4D 等)比较中还是弱了一些。所以 4D 的 MAE 方法,也是值得一试的,其实 GAIA-1 已经提到了类似的思路。
运算量与内存使用量如何?
具体方法:
UniPAD 隐式地编码了 3D 空间信息,这里主要受到了掩码自编码(MAE、VoxelMAE 等)的启发,本文利用了生成式的 mask 来完成体素特征的加强,用来重建场景中连续的 3D 形状结构以及它们在 2D 平面上的复杂外观特征。
在我们的实验中,UniPAD的优越性得到了充分体现。相较于传统的激光雷达、摄像头,以及激光雷达-摄像头融合基线,UniPAD 分别提高了 9.1、7.7 和 6.9 的 NDS 。值得一提的是,在nuScenes验证集上,我们的预训练流程为3D目标检测实现了73.2的NDS,并在3D语义分割任务上取得了79.4的 mIoU 分数,与之前的方法相比,取得了最好的成绩。
整体架构。该框架 LiDar 和多镜头图片作为输入,这些多模态数据会通过掩蔽生成器(Mask Generator)被填充为零。被掩码遮蔽的 embedding 会被转换到体素空间,在这样的 3D 空间中通过渲染技术生成RGB或深度预测结果。这时没有被掩码遮蔽的原始图像就可以做为生成数据进行监督学习了。
Mask Generator
这里的 Masked AutoEncoder 的 mask 是通过 Mask Generator 来生成的。可以理解为通过数据增量的方式来提高了训练难度,以寄希望于增强模型的表示能力和泛化能力。引入了一个 Mask 生成器,通过有选择性地遮挡某些区域,同时还区分了点云数据和图像数据。在点云数据中,采用了分块遮罩(block-wise masking)的策略;对于图像,采用了稀疏卷积(sparse convolution)的方法,只在可见区域进行计算。当输入数据被 mask 掉后,后续的编码特征在对应的被 mask 区域会被设置为 0,从而在模型的处理中被忽略,同时也为后续的监督学习提供了可以用来预测目标以及其对应的 groundtruth 。
统一的表示形式
为了使预训练方法适用于各种不同的数据模态,寻找一个统一的表示形式就很重要。过往 BEV 和 OCC 等方法都在寻找一个统一的标识形式,将3D点投影到图像平面中会导致深度信息的丢失,而将它们合并到 BEV 鸟瞰图中则会遗漏与高度相关的细节。所以本文提出将两种模态都转换为3D体积空间,也就是类似 OCC 类似的 3D 体素空间。
渲染方法:
可微分渲染技术应该是作者认为论文最大的亮点了,本文通过类似 NERF 的采样射线穿过多视图图像或点云,通过神经网络结构预测每个 3D 点的颜色或深度,最后再通过射线穿过的路径获取 2D 的映射。这样可以更好地利用图像中的几何或纹理线索,提高模型的学习能力和应用范围。
我们将场景表示为 SDF(implicit signed distance function field),当输入是采样点的 3D 坐标 P(沿射线的相应深度 D)与 F(the feature embedding can be extracted from the volumetric representation by trilinear interpolation)时,SDF 可以看做一个 MLP ,来预测采样点的 SDF 值。这里 F 可以理解为 P 点所在的 encode 编码。继而得到输出:N(condition the color field on the surface normal)和 H(geometry feature vector),这时就可以通过一个以 P、D、F、N、H 为输入的 MLP 获取到 3D 采样点的 RGB 值和深度值,再通过射线叠加 3D 采样点到 2D 空间就得到了渲染结果。而这里射线 Ray 的采用方法,和 Nerf 的方法基本相同。
渲染方法还需要进行内存开支的优化工作,这里先按下不表。不过这个问题是个比较关键的落地问题。
Mask 与渲染方法的本质是训练一个 pretrain 模型,pretrain 是可以没有后续分支的就可以根据预测 mask 来完成训练。pretrain 的后续工作会分别通过不同的分支产生 rgb 和 depth 预测,也就是后续可以再通过 det/seg 等任务结合的时候去微调,也就实现了一种即插即用的能力。
Loss 损失函数:
Loss 函数并不复杂。
和近期其他工作对比:
其实 GAIA-1 已经在用时序上的 Mask AutoEncoder 思路,只不过作为监督数据的是不同时刻的一整帧数据,但是 UniPAD 则是在 3D 空间中去随机抠出一部分 mask 来监督预测。倒是蛮期待能看到两者结合的方法的。
另外,UniPAD 完全可以看成是一种多模态大模型的尝试,也可以看做是一种世界模型。虽然文章中没有非常强调这些。
消融实验通常用来理解不同组件对模型性能的影响。根据提供的表格内容,我们可以总结以下关于体积基神经渲染的消融研究结果:
- 遮罩比例 (Mask ratio): 使用0.3的遮罩比例在NDS和mAP上分别取得了32.9%和32.6%的得分,表现出是这一系列实验中的最佳设置。这表明在输入数据中遮蔽30%的部分可以提供最佳的训练难度,有利于模型学习。
- 解码器深度 (Decoder depth): 解码器的深度影响模型的性能。一个具有(6, 4)层的解码器在NDS上达到了32.9%,这是测试的配置中最高的,表明一个较深的解码器可以提高精度。
- 解码器宽度 (Decoder width): 解码器的宽度对性能的影响较小。不同维度的解码器在NDS和mAP上的得分差异不大,最高分数与最低分数相差不到0.5%。
- 渲染技术 (Rendering technique): 在测试的三种不同的渲染方法中,NeuS方法(NDS 32.9%, mAP 32.6%)略胜一筹,表明良好设计的渲染技术对于表示学习是有益的。
- 采样策略 (Sampling strategy): 深度感知采样在NDS和mAP上均取得了32.9%和32.6%的最佳得分,优于扩张采样和随机采样,这显示出选择性地采样更为重要的区域可以提升渲染质量和模型性能。
- 特征投影 (Feature projection): 特征投影对于增强体素表示至关重要。与基线模型相比,去掉投影层会导致NDS和mAP的性能下降,这表明特征投影对于保持高质量的体素表示是必要的。
- 预训练组件 (Pre-trained components): 模型的预训练组件对于微调至关重要。只有编码器的模型(NDS 32.0%, mAP 31.8%)比只有基线的模型(NDS 25.2%, mAP 23.0%)性能有显著提升,而加入FPN和VT(Volume Transformer)后,模型在NDS上进一步提升到了32.9%,在mAP上提升到了32.6%,证明了在预训练阶段加入这些组件能够显著提升模型的性能。
通过这些消融实验,我们可以看出每个组件和参数选择如何影响最终的模型性能,并且可以得出哪些组件对于模型最为关键。这样的分析有助于研究者们理解和优化他们的模型结构。
讨论
这篇论文提出的方法在处理3D点云和多视图图像数据时表现出了显著的优势。通过将数据统一转换成3D体积表示,并使用先进的神经渲染技术,该方法在预训练阶段就能学习到丰富的几何和纹理特征,这在后续的下游任务中证明是有益的。特别是通过深度感知采样,该方法优先处理更为重要的数据区域,从而有效提高了模型的渲染质量和整体性能。此外,特征投影和体积变换器的应用进一步加强了体积表示,使得模型能够在预训练后更好地进行微调。
尽管如此,方法也存在一些局限性。例如,尽管解码器的深度和宽度调整显示出对模型性能有细微的影响,但这也意味着在资源有限的情况下,选择合适的模型规模和复杂度是一项挑战。此外,尽管深度感知采样策略在性能上取得了最佳结果,但它也依赖于高质量的深度信息,这在实际应用中可能受到传感器质量和环境因素的影响。最后,虽然预训练组件证明是提高性能的关键,但每个组件的设计和集成都需要仔细的考量,以确保模型的泛化能力和实际应用的有效性。这些挑战需要未来的研究工作来进一步探讨和解决。
总结:
本文应该算是 3D 领域较为新颖的 Masked Autoencoder 方法了。因为 MAE 方法是用在了基座模型预训练阶段,所以支持了多个不同模态的信息,所以自然而然的可以扩展到微调下游很多任务,这和 LLM 的设计思路非常的接近,都注重于在预训练阶段捕捉多模态信息,为各种任务提供统一的基础。这种方法为3D领域的研究提供了新的思路和可能性。
该方法不仅在3D领域具有潜力,还可以扩展到 4D 时序领域,以及优化其内存与计算量等方面还可以产生很多新的工作,为未来的研究提供了新的思路和可能性。
#各种模型~合集
1. 驶向未来:面向自动驾驶的多视图预测与规划的世界模型
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving
论文作者:王宇琪,何嘉伟,范略,李鸿鑫,陈韫韬,张兆翔
最近,世界模型的概念引发了广泛关注。我们首次提出了一种名为Drive-WM的全新多视图世界模型,旨在增强端到端自动驾驶规划的安全性。Drive-WM模型通过多视图世界模型,能够想象不同规划路线的未来情景,并根据视觉预测获取相应的奖惩反馈,从而优化当前的路线选择,为自动驾驶系统的安全提供了保障。Drive-WM是与现有端到端规划模型兼容的第一个驾驶世界模型。通过视图因子分解促进的联合时空建模,我们的模型在驾驶场景中生成了高保真度的多视角视频。在其强大的生成能力基础上,我们首次展示了将世界模型应用于安全驾驶规划的潜力。对真实世界驾驶数据集的评估验证了我们的方法可以生成高质量、一致性和可控性的多视角视频,为真实世界的模拟和安全规划开辟了新的可能性。
图1. 自动驾驶世界模型
图2. 基于多视图世界模型的预测和规划
论文链接:https://arxiv.org/abs/2311.17918
代码链接:https://github.com/BraveGroup/Drive-WM
Project Page:https://drive-wm.github.io
2. PanoOcc:面向视觉三维全景分割任务的统一栅格占用表示
PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation
作者:王宇琪,陈韫韬,廖星宇,范略,张兆翔
全面的三维场景感知对于自动驾驶和机器人领域至关重要。基于相机的三维感知取得了迅速发展,但过去的任务如三维目标检测、地图语义分割等,各自关注场景表示的某一方面,且表示方式不统一。我们希望能够探索一种统一的场景表示,使其能统一表达这些任务,并将背景和前景物体统一建模。目前基于鸟瞰图特征的方法在三维目标检测上表现出色,但由于缺失了高度和形状信息,直接应用于三维场景感知任务时性能较差。这启示需要探索适合三维场景的特征表示,这也使得三维的栅格占用表示重新受到关注。然而,与二维空间相比,三维空间更加稀疏,直接将二维鸟瞰图特征扩展到三维体素表示将带来巨大的显存和计算开销。本研究提出PanoOcc模型,将检测和分割任务联合学习,统一了检测和分割任务的输出表示。为实现高效的特征学习,我们设计了从粗到细的解码层结构,并探索了稀疏表示的应用。本研究进行了大量消融研究以验证有效性和效率,在基于相机的机的三维语义分割、全景分割和密集占用栅格预测等任务中都取得了最先进性能。
图. PanoOcc的整体模型设计
论文链接:https://arxiv.org/abs/2306.10013
代码链接:https://github.com/Robertwyq/PanoOcc
3. 基于可靠持续学习的失败检测
RCL: Reliable Continual Learning for Unified Failure Detection
作者:朱飞,程真,张煦尧,刘成林,张兆翔
深度神经网络往往对未知输入过于自信,给实际应用带来了较大风险。已有研究主要关注检测来自未知类别的分布外样本,而忽略了来自已知类别的错分样本。最近的研究发现,分布外检测方法往往对错分检测有害,表明这两项任务之间似乎存在折中。本文研究了统一失败检测问题,即同时检测错分样本和分布外样本。我们发现对二者的学习目标进行联合训练不足以获得统一检测的能力,而序列学习的模式有较大潜力。受此启发,本文提出了一种可靠的持续学习范式,使模型先具备错分检测的能力,然后在不降低已有可靠性的前提下通过持续学习提升模型的分布外检测能力。实验表明,该方法具有优异的失败检测性能。
可靠持续学习示意图
4. 基于偏振光融合优化的深度测量增强方法
Robust Depth Enhancement via Polarization Prompt Fusion Tuning
作者:池村敬,黄一鸣,菲利克斯·海德,张兆翔,陈启峰,雷晨阳
本文提出了一个利用偏振成像改进各种深度传感器不准确深度测量的通用框架。现有的深度传感器在存在透明或反射物体的复杂场景中会提供不准确的深度值,而此前基于偏振的深度增强方法主要利用纯物理公式来处理单一传感器的数据。相比之下,本文所提出的方法采用深度学习,通过训练神经网络从偏振数据和来自不同传感器的传感器深度图来获得更稠密准确的深度图。本文提出了一种称为Polarization Prompt Fusion Tuning (PPFT)的策略,其利用在大规模RGB数据集上预训练的模型,在规模有限的偏振数据集上进行融合增强,从而有效地训练出更强大的深度增强模型。本文在一个公共数据集上进行了大量实验证明,与现有的深度增强基准方法相比,所提出的方法表现最佳。
图1. 图中数据来自偏振相机以及d-ToF深度传感器,本方法在具有挑战性的深度增强问题上产生准确的结果,包括深度补全、透明表面的深度修复、形状校正等。如图所示,透明水瓶处的深度被有效修复 。
图2. 本文所提出的偏振提示融合块(PPFB)将偏振光信息作为额外视觉提示输入,采用递进的方法依次融合到从预训练层提取的特征中。
相关链接:https://lastbasket.github.io/PPFT/
5. MemoNav: 基于类人工作记忆的视觉导航智能体
MemoNav: Working Memory Model for Visual Navigation
论文作者:李鸿鑫,王泽禹,杨旭,杨雨然,梅树起,张兆翔
人类导航至多目标时,会回忆起与目标相关的地点特征,忽视其他无关区域的记忆,并利用激活的这部分局部信息来快速规划路线,无需重复探索。MemoNav借鉴人类这种工作记忆机制,结合短期记忆和长期记忆一起提升导航决策性能(图1)。其引入了遗忘机制、长期记忆、和工作记忆三个协同组件:
选择性遗忘机制由于并非所有地图结点都和导航目标有关,MemoNav提出利用目标注意力机制,计算地图结点和当前目标的注意力分数,然后暂时“遗忘”分数较低即对导航帮助不大的偏远结点,被保留的则用于下游决策。
长期记忆为了习得场景的全局表征,智能体维护一个和所有短期记忆结点相连的全局结点作为长期记忆,不断地通过图注意力机制聚合短期记忆特征。
工作记忆利用一个图注意力机制编码保留的短期记忆和长期记忆,得到和当前导航任务最相关的工作记忆,输入给下游策略模块以得到最终导航行为。在Gibson和Matterport3D场景中,该方法的多目标导航性能大幅超越SoTA模型。定性实验显示其可以规划更快捷的路径,且死锁概率更小(图2)。
图1. MemoNav借鉴人脑工作记忆的导航模型。MemoNav通过注意力机制选择与当前导航目标相关的短期记忆(即地图结点)和长期记忆(即全局结点)一起生成工作记忆,用于下游决策。
图2. MemoNav和现有其它方法的定性对比。
代码链接:https://github.com/ZJULiHongxin/MemoNav
论文链接:https://arxiv.org/abs/2402.19161
6. 预训练视觉模型的连续遗忘
Continual Forgetting for Pre-trained Vision Models
论文作者:赵宏博、尼博琳、樊峻菘、王玉玺、陈韫韬、孟高峰、张兆翔
出于隐私和安全考虑,如今变得越来越明显的是,需要从预训练的视觉模型中擦除不需要的信息。在现实世界场景中,用户和模型拥有者可以随时提出擦除请求。这些请求通常形成一个序列。因此,在这样的设置下,期望从预训练模型中连续移除选定信息,同时保留其余信息。我们将这个问题定义为持续遗忘,并确定了两个关键挑战。(i) 对于不需要的知识,有效且高效的删除至关重要。(ii) 对于剩余的知识,遗忘过程带来的影响应尽可能小。为了解决这些问题,我们提出了群稀疏LoRA(GS-LoRA)。具体来说,针对(i),我们使用LoRA模块独立地对Transformer块中的FFN层进行微调,以应对每个遗忘任务,并针对(ii),采用了简单的组稀疏正则化,实现了特定LoRA群组的自动选择并将其他群归零。GS-LoRA有效、参数高效、数据高效且易于实现。我们在人脸识别、目标检测和图像分类上进行了广泛实验,并展示了GS-LoRA能够在对其他类别影响最小的情况下忘记特定类别。
图1. 连续遗忘
图2. GS-LoRA管线示意图
论文链接:arxiv.org/pdf/2403.11530.pdf
代码链接:https://github.com/bjzhb666/GS-LoRA
7. 通过语言引导监督加强视觉连续学习
Enhancing Visual Continual Learning with Language-Guided Supervision
论文作者:尼博琳、赵宏博、张承灏、胡珂、孟高峰、张兆翔、向世明
连续学习旨在使模型能够在不忘记先前获得的知识的情况下学习新的任务。当前的工作往往集中在网络结构、回放数据和正则化等技术。然而,数据类别标签中的语义信息在很大程度上被忽略了。当前的方法往往使用独热标签,每个任务独立学习分类头。我们认为,独热标签无法捕捉连续学习场景下不同类别跨任务的语义关系,阻碍了知识在任务间的有效转移。在本工作中,我们重新审视了分类头在连续学习场景中的作用,并用来自预训练语言模型的语义知识取代了随机初始化的分类头。具体来说,我们使用预训练语言模型为每个类别生成语义目标,这些目标在训练期间被冻结作为监督信号。这些目标充分考虑了跨任务的所有类之间的语义相关性。实证研究表明,我们的方法通过减轻表征漂移和促进跨任务的知识转移来减轻遗忘。所提出的方法易于实现,并且可以无缝地插入到现有方法中。
图1. LingoCL示意图及效果
8. HardMo:一个大规模难例动作捕捉数据集
HardMo: A Large-Scale Hardcase Dataset for Motion Capture
论文作者:廖佳琪,罗传琛,杜伊诺,王玉玺,殷绪成,张曼,张兆翔,彭君然
本文介绍了一个大规模的难例动作捕捉数据集——HardMo,旨在弥补现有人体mesh恢复方法(HMR)在处理舞蹈和武术等场景中不常见姿势的不足。由于这些领域的动作具有高速度和高张力特征,而现有数据集大多聚焦于日常动作,缺乏这类复杂动作的样本,导致模型难以有效处理舞蹈和武术场景。为此,我们提出了一套数据收集流程,包括自动爬取、精确标注和难例挖掘,基于此流程快速建立了包含700万张图片的大型数据集HardMo。这些图片覆盖了15类舞蹈和14类武术,每张图片都配有精确的标注。实验发现,舞蹈和武术中的预测失败主要表现在手腕和脚踝的不对齐上。此外针对这两个难点,我们利用提出的自动化流程筛选出相关数据,构建了名为HardMo-Hand和HardMo-Foot的子集。广泛的实验表明,我们的标注流程和数据驱动解决方案的有效性。特别是,经HardMo训练后的HMR方法甚至在我们的基准测试上超过了当前的最先进技术4DHumans。
图1. HardMo 数据集概览
图2. 自动化标注流程
9. 属性引导的行人检索:跨越行人重识别中的内在属性变化
Attribute-Guided Pedestrian Retrieval: Bridging Person Re-ID with Internal Attribute Variability
论文作者:黄延、张彰、吴强、钟怡、王亮
在智能监控领域中,行人检索(重识别)技术,扮演着至关重要的角色。目前的Re-ID方法常常忽略对行人细微属性变化所导致的外观变化显式建模。针对这一问题,我们的研究提出了视觉属性引导的行人检索(AGPR)任务,旨在通过对特定人体属性查询条件与查询图像的整合来提高行人检索准确性。我们提出的基于ViT属性引导的行人检索(ATPR)框架通过对行人属性组间相关性和属性组内去相关性建立正则化项,有效地融合了全局行人ID识别与局部属性学习。我们基于RAP行人属性数据集构建了新的AGPR任务基准,并进行了广泛实验,结果验证了我们提出的ATPR方法在AGPR任务中的有效性。
图. 视觉属性引导的行人检索(AGPR)示意图
10. 调查视觉-语言模型在视觉定位任务上的组合关系挑战
Investigating Compositional Challenges in Vision-Language Models for Visual Grounding
论文作者:曾宇楠,黄岩,张津津,揭泽群,柴振华,王亮
预训练的视觉-语言模型(VLMs)在各种下游任务中取得了高性能,这些模型已被广泛应用于视觉定位任务。然而,尽管大规模的视觉和语言预训练贡献了性能提升,我们发现最先进的VLMs在定位任务的组合推理上存在困难。为了证明这一点,我们提出了属性、关系和主次定位(ARPGrounding)基准测试,以测试VLMs在视觉定位任务中的组合推理能力。ARPGrounding包含11,425个样本,并从三个维度评估VLMs的组合理解能力:1)属性,测试对目标属性的理解;2)关系,测试对目标之间关系的理解;3)主次,反映了与名词相关的词性的意识。使用ARPGrounding基准测试,我们评估了几种主流的VLMs。实验结果表明,这些模型在传统的视觉定位数据集上表现相当好,达到或超过了最先进方法的性能,然而在组合推理上显示出明显的不足。更进一步,我们提出了组合关系感知的微调流程,展示了利用低成本的图像-文本标注来增强VLMs在定位任务中的组合理解能力的潜力。
图1. 在视觉定位任务中测试CLIP的组合关系理解的例子。CLIP在辨别真实目标和欺骗性目标时遇到挑战。(左)CLIP被一只不同颜色的狗误导。(右)CLIP被短语中的另一个目标误导。这两个例子都表明CLIP对组合结构的把握存在不足。
11. 多模态提示感知器:为多功能图像复原赋能自适应性、泛化性和保真度
Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration
论文作者:艾雨昂,黄怀波,周晓强,王杰翔,赫然
本文介绍了一种名为MPerceiver的多模态提示学习方法,旨在解决多功能图像复原中面临的复杂真实场景退化问题。MPerceiver通过利用Stable Diffusion中的先验知识来增强自适应性、泛化性和保真度。具体来说,本文提出了一个双分支模块提供多模态提示:文本提示用于整体表征,而视觉提示用于多尺度细节表征。这两种提示通过CLIP图像编码器的退化预测动态调整,能够适应各种未知的退化情况。此外,MPerceiver采用了一个插件式细节精炼模块,通过编码器到解码器的信息跳连,改善了图像复原的保真度。MPerceiver在9个图像复原任务中进行了训练,并且在许多任务中甚至超越了最先进的特定任务方法。在多任务预训练之后,MPerceiver学习到了底层视觉的通用表征,展现了强大的Zero-Shot和Few-Shot能力。在16个复原任务上的实验证明了MPerceiver在自适应性、泛化性和保真度方面的优越性。
图. MPerceiver双分支结构
论文链接:https://arxiv.org/abs/2312.02918
12. 基于小波增强Transformer和不确定性感知的无源自适应图像超分辨率
Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer
论文作者:艾雨昂,周晓强,黄怀波,张磊,赫然
无监督领域适应能够通过同时访问源数据和目标数据,有效地解决真实场景图像超分辨率中的域差异问题。考虑到实际场景中源数据的隐私政策或传输限制,本文提出了一种无源领域自适应框架SODA-SR用于图像超分辨率。SODA-SR利用源训练模型生成精细化的伪标签,用于师生学习。为了更好地利用伪标签,本文提出了一种新颖的基于小波的增强方法,名为小波增强Transformer,它可以灵活地结合现有网络,隐式地产生有用的增强数据。此外,本文提出了一种不确定性感知的自训练机制,以提高伪标签的准确性,不准确的预测将通过不确定性估计得到纠正。实验表明,即使不访问源数据,SODA-SR也在多种设置中超越最先进的UDA方法,并且不受特定网络架构的限制。
图. SODA-SR结构
论文链接:https://arxiv.org/abs/2303.17783
13. RMT:Retentive Network遇上Vision Transformer
RMT: Retentive Networks Meet Vision Transformers
论文作者:樊齐航,黄怀波,陈铭锐,刘红敏,赫然
最近,Retentive Network(RetNet)作为一种有可能取代Transformer的架构出现,引起了自然语言处理社区的广泛关注。作者将RetNet的思想迁移到视觉领域并将RetNet和Transformer结合起来,提出了RMT。受RetNet启发,RMT在视觉Backbone中引入了显式衰减,将与空间距离相关的先验知识引入到视觉模型中。这种与距离相关的空间先验允许显式控制每个Token可以关注的Token范围。此外,为了降低全局建模的计算成本,作者沿图像的两个坐标轴分解了这个建模过程。大量的实验表明,RMT在各种计算机视觉任务如分类、目标检测、实例分割和语义分割等中表现出色。
图. RMT示意图
论文链接:https://arxiv.org/abs/2309.11523
代码链接:https://github.com/qhfan/RMT
14. 面向测试过程检测及修复的神经后门防御
Backdoor Defense via Test-Time Detecting and Repairing
论文作者:关霁洋,梁坚,赫然
针对神经后门防御问题,之前的工作主要在模型部署之前使用干净样本来去除模型神经后门,而本文研究了利用部分污染的模型测试数据从模型中去除神经后门,并提出了一种两阶段的神经后门防御方法。在第一阶段,本文提出了一种后门样本检测方法DDP,它从一批混合的部分投毒数据中识别出后门样本,其后,本文使用夏普利值估计定位并去除模型中的神经后门。我们的的方法TTBD在多种网络结构下针对多种不同的神经后门攻击,均取得了良好的神经后门防御效果。
15. MoPE-CLIP:使用模块化剪枝误差度量的高效视觉-语言模型结构化剪枝方法
MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric
论文作者:林浩坤,柏昊立,刘智立,侯璐,孙沐毅,宋林琦,魏颖,孙哲南
本文探索了多种多模态视觉语言预训练模型(如CLIP)的小型化方案,研究发现直接使用较小的预训练模型或应用基于权重大小的剪枝,往往导致灵活性不足和性能不佳。针对上述挑战,我们提出了一种新颖的模块化剪枝误差(MoPE)度量方法,旨在精确评估CLIP模块在跨模态任务中的重要性。利用MoPE度量,我们进一步提出适用于预训练和特定任务微调两个压缩阶段的剪枝框架,同时设计了更高效的知识蒸馏损失函数。在预训练阶段,MoPE-CLIP利用教师模型的知识,显著减少了预训练成本,并保持CLIP模型强大的零样本能力。在微调阶段,通过先宽度剪枝再深度剪枝的方式,我们能够在特定任务上产生性能强大的专用模型。我们通过两个阶段的广泛实验验证了MoPE度量的有效性, MoPE-CLIP超越了之前最先进的多模型模型剪枝方案,与先前采用单一模态剪枝度量或涉及昂贵的可学习掩模搜索过程的方法相比,我们的方法不仅提高了性能,而且提供了一种更灵活、成本效益更高的解决方案。
论文链接:https://arxiv.org/abs/2403.07839
16. SfmCAD:基于“草图+特征”建模的无监督CAD重建
SfmCAD: Unsupervised CAD Reconstruction by Learning Sketch-based Feature Modeling Operations
论文作者:李朴,郭建伟,李慧斌,Bedrich Benes,严冬明
SfmCAD通过学习现代CAD工作流中基于草图的特征建模操作来重构三维形状。给定一个体素形式表示的三维形状,SfmCAD能够无监督地学习一种草图+路径参数化表示方法,包括形状部件的二维草图及其三维扫掠路径。SfmCAD利用二维草图来表达局部几何细节,并通过三维路径捕捉整体结构,实现了形状细节与结构之间的解耦。这种转化为参数化形式的方法不仅增强了模型的可解释性,还提高了输出结果的可编辑性,使用户能够方便地编辑形状的几何和结构特征。我们通过将SfmCAD应用于各种不同类型的对象,如CAD部件、ShapeNet形状和树干结构,展示了我们方法的有效性。
图1. “草图+特征”CAD重建结果示意图
17. SVDTree:基于语义体素扩散模型的单张图像树木三维重建
SVDTree: Semantic Voxel Diffusion for Single Image Tree Reconstruction
论文作者:李源、刘志浩、Bedrich Benes、张晓鹏、郭建伟
高效地表示和重建树木的三维几何仍然是计算机视觉和图形领域中的一个极具挑战性的问题。本研究提出了一种新颖的方法,用于从单个视角的照片生成逼真的树木三维模型。本研究将三维信息推理问题转化为语义体素扩散过程,该过程将树木的输入图像转换为三维空间中的新颖语义体素结构(SVS)。SVS编码了几何外观和语义结构信息(例如树干、树枝和树叶),从而保留了复杂的树木内部特征。针对SVS,本研究提出了一种新的混合树木建模方法,SVDTree,包括面向结构的树干重建和基于自组织的树冠重建两部分。本研究使用合成和真实树木的图像对SVDTree进行了算法验证和对比,结果表明,本研究方法能够更好地保留树木细节,并实现了更为逼真和准确的重建结果。
图. SVDTree用于单张图像树木三维重建。给定一张带掩码的图像,SVDTree使用扩散模型自动推断出树木的语义体素结构,并通过一个混合几何重建算法,生成具有高视觉保真度的三维树木模型。
18. UnionFormer: 用于图像篡改检测和定位的多视角表征联合学习Transformer模型
UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization
论文作者:李帅伯、马伟、郭建伟、徐世彪、李本冲、张晓鹏
本研究提出了UnionFormer,一种针对图像篡改检测与定位的新颖Transformer框架,它采用联合学习机制,整合了三个不同视角的篡改信息,以准确判别真伪图像。在该研究中,我们设计了能够从RGB视角和噪声视角交互提取篡改表征的BSFI-Net,其不仅对边界处的异常痕迹有着敏感的响应,而且能够建模多尺度的空间连续性。此外,本研究引入图像内不同目标间的不一致性作为全新的判别视角,并将其构建过程与检测、定位任务融合于一个统一的三任务联合学习架构中,从而实现不同任务间的相互促进。由此,本研究提出的模型在多重监督下,成功学习并整合三个视角的篡改判别特征,实现了高性能的同步检测与定位。实验结果表明,与先前的方法相比,本研究方法对多种类型的图像篡改具有更高的检测与定位准确率。
图. UnionFormer 整体框架。本方法通过BSFI-Net获取RGB视角和噪声视角下的篡改痕迹特征,并基于两者在联合学习中构建对象视角的表征。三个视角的信息被交互融合为统一的篡改判别表征 UMDR,用于同步检测与定位。每种视角由不同颜色表示。
19. 面向开放集测试阶段自适应的统一熵优化方法
Unified Entropy Optimization for Open-Set Test-Time Adaptation
论文作者:高正清、张煦尧、刘成林
测试阶段自适应(Test-time adaptation,TTA)旨在将一个在标记源域上预训练的模型适应到未标记的目标域。现有方法通常专注于在协变量偏移下改善TTA性能,而忽略了语义偏移。在这篇论文中,我们探索了一种更加符合实际的开放集TTA场景,其中目标域可能包含来自未知类别的样本。许多现有的封闭集TTA方法在应用于开放集场景时表现不佳,这可以归因于对数据分布和模型置信度的不准确估计。为了解决这些问题,我们提出了一个简单有效的框架,称为统一熵优化(Unified Entropy Optimization,UniEnt),它能够同时适应协变量偏移的分布内(csID)数据和检测协变量偏移的分布外(csOOD)数据。具体来说,UniEnt首先从测试数据中挖掘出伪csID和伪csOOD样本,随后对伪csID数据进行熵最小化处理,以及对伪csOOD数据进行熵最大化处理。此外,我们引入了UniEnt+以利用样本级置信度减轻硬数据划分造成的噪声。在CIFAR基准和Tiny-ImageNet-C上的广泛实验显示了我们框架的优越性。
统一熵优化框架说明
20. 主动广义类别发现
Active Generalized Category Discovery
论文作者:马时杰、朱飞、钟准、张煦尧、刘成林
广义类别发现是一项现实且具有挑战性的开放环境任务,其目标是利用部分有标记的旧类别样本,对同时含有新类别和旧类别的无标签数据进行分类(聚类)。由于从旧类别中学到的知识不能完全迁移到新类中,并且新类完全未标记,这个任务存在固有的问题,包括:新旧类别之间分类性能不均衡、模型对新旧类别置信度分布不一致,特别是在标签很少的条件下。因此,对于新类的标注是很有必要的。然而,标记新类的成本极其高昂。为了解决这个问题,我们借鉴主动学习的思想,提出了一个新任务:主动广义类别发现。其目标是通过主动从无标注样本中选择有限数量的有价值样本进行标记,来提高新旧类的分类性能。为了解决这个问题,我们设计了一种自适应采样策略,考虑样本的新颖性、信息量和多样性,以自适应地选择具有适当不确定性的潜在新类样本。然而,由于新类发现本质是聚类问题,这会导致模型预测和ground truth标签索引的排序不同,查询的标签不能直接应用于后续训练。为了克服这个问题,我们进一步提出了一种稳定的标签映射算法,将真实标签转换到模型的标签空间,从而确保不同主动学习阶段的一致训练。我们的方法在通用和细粒度数据集上都实现了最先进的性能。
图. 主动广义类别发现与相关任务的区别
论文链接:https://arxiv.org/abs/2403.04272
代码链接:https://github.com/mashijie1028/ActiveGCD
21. 模态协同测试时自适应动作识别
Modality-Collaborative Test-Time Adaptation for Action Recognition
论文作者:熊宝琛、杨小汕、宋亚光、王耀威、徐常胜
基于视频的无监督域自适应方法提高了视频模型的泛化程度,使其能够应用于不同环境下的动作识别任务。然而,这些方法需要在适配过程中持续访问源数据,这在源视频不可用的真实场景中是不切实际的,因为存在传输效率或隐私问题的问题。为了解决这个问题,本文重点介绍了多模态视频测试时自适应(MVTTA)任务。现有的基于图像的TTA方法无法直接应用于这项任务,因为视频在多模态和时序上存在域偏移,这带来了新的困难。为了应对上述挑战,我们提出了一个模态协同测试时间适应(MC-TTA)网络。MC-TTA包含分别用于生成伪原型和目标原型的教师和学生记忆库。在教师模型中,我们提出了自组装源友好特征重建模块(SSFR),以鼓励教师记忆库存储更有可能与源分布一致的特征。通过多模态原型对齐和跨模态相对一致性,我们的方法可以有效缓解视频中的域差异。
图1 仅有预训练后的源模型和未标记的目标视频才能用于目标模型学习。我们提出自组装源友好型特征重构 (SSFR) 模块,以构建来自目标域的伪源域特征。此外,通过模态协同可以保持易受域偏移影响模态的判别性。
图2 模态协同测试时间适应(MC-TTA)网络
22. 如何让交互编码器成为高效图文检索的良师?
How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?
论文作者:陈禹昕、马宗扬、张子琦、祁仲昂、原春锋、李兵、蒲俊福、单瀛、齐晓娟、胡卫明
针对双流预训练结构简单,难以建模丰富图文关联知识的问题,本文提出了一种基于对比式局部排序蒸馏的图像文本预训练方法。预训练蒸馏方法通常使用具有高匹配精度的单流模型作为教师模型,在预训练的过程中指导计算高效的双流模型对丰富图文知识的学习。现有方法通常采用基于相似度分布蒸馏的方式,然而由于单流模型与双流模型之间的相似度分布差异极大,这种方法难以有效实现知识传递。本文采用了一种排序蒸馏的方法,将单流模型对于不同图像文本对的相似度排序作为知识监督,要求双流模型对这些图文对的相似度排序与单流模型保持一致。同时,本文通过分析及实验发现,只有难负样本对之间的相对顺序包含有效的知识,并且蒸馏损失需要与图文对比学习损失保持协调以免产生干扰。因此,本文专注于蒸馏难负样本之间的相对顺序,忽略简单负样本的排序,并通过对比学习的方式实现知识蒸馏目标,实现了知识的有效传递。实验结果表明,本文方法在两个公开图像文本检索数据集MSCOCO和Flickr30K,以及图像文本匹配数据集CrissCrossed Captions数据集上有效提高了双流模型的图文检索和匹配精度,超越了同期的蒸馏方法。
图1.(a)双流编码器与交互编码器的相似度分数分布。(b)不同蒸馏方法的蒸馏目标及学生模型输出结果。对于局部排序蒸馏,简单样本之间的相对顺序被忽略。
图2. 对比式局部排序蒸馏方法示意图。左侧展示了整体训练流程。右侧展示了图文对齐和对比式局部排序蒸馏的详细计算流程。
23. 类别感知提示学习
TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model
论文作者:姚涵涛、张蕊、徐常胜
为了有效的迁移视觉语言模型中包含的百科知识到下游任务,提示学习(Prompt Tuning)被广泛用于新知识的学习。在CLIP中,固定的模板(“a photo of {}”)被用来建模类别的文本空间描述并用于预测。不同于CLIP,基于提示学习的文本优化近来被用于建模新数据的有效类别特征空间。但是,目前的提示学习算法可以概括为域共享的提示学习和图像感知的提示学习,但是这些提示学习算法的文本优化器会过拟合于训练域而在未知测试域上具有较差的性能。为了进一步提升文本编码器生成的分类器的辨别能力和泛化能力,我们提出了类感知提示学习(图1)。由于预训练生成的类别特征具有一定的辨别能力,通过在预训练模型中显式的插入包含类别先验的基于类别特征生成的类别感知提示模板提升的提示学习的泛化性和辨别性。在一系列的数据集上验证了类别感知提示学习在零样本学习、域泛化学习和小样本学习等任务上都取得了很好的性能。另外我们提出的类别感知提示模块具有很好的即插即用性,可以简单高效地融合于提示学习算法。
图. 类别感知提示学习的框架
论文链接:https://arxiv.org/abs/2311.18231
代码链接:https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning
24. 用于 3D 半监督物体检测的非对称网络
A-Teacher: Asymmetric Network for 3D Semi-Supervised Object Detection
论文作者:王汉石、张志鹏、胡卫明、高晋
本文提出了首个基于LiDAR的3D对象检测的在线非对称半监督框架,即A-Teacher。本文的动机来源于观察到现有的对称教师-学生方法虽简单,但由于要求模型结构和输入数据格式相同,限制了教师与学生之间的知识传递效率。与之相反,复杂的离线非对称方法能生成更精确的伪标签,但共同优化教师和学生模型却具有挑战。因此,我们提出了一种不同的方法,可以利用离线教师的能力同时保留共同更新整个框架的优势,并设计了基于注意力机制的Refine模型,高效处理复杂情况。在Waymo数据集上的实验结果显示,我们的方法在减少训练资源的同时,性能超过了之前的最佳方法。
25. 人脸分割几何信息指导下的三维人脸重建
3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation
论文作者:王子都、朱翔昱、张田硕、王柏钦、雷震
本文面向单目三维人脸重建任务,实现了对人脸极端表情的精确三维重建。我们利用二维人脸分割的几何信息来引导人脸重建,设计了一个强大的几何约束函数。该约束函数首先将人脸部件的分割信息转化为点集,把三维部件形状的拟合问题转化为点集分布的匹配问题。该函数使用一组已知点作为锚点,分别计算锚点与预测点集以及目标点集之间的各种统计距离,并通过减少这些距离的差异来确保预测点集和目标点集具有相同的几何覆盖区域。大量的定量和定性实验证明了我们方法的有效性,它可以非常准确地捕捉不对称和奇怪的面部表情。此外,我们还合成了一个包含皱眉、歪嘴、闭眼等极端表情的人脸数据集,以促进相关研究。
图1. 方法的主要流程图
图2. 与其他SOTA方法进行定性比较。
论文链接:https://arxiv.org/abs/2312.00311
代码链接:https://github.com/wang-zidu/3DDFA_V3
26. 基于免类别提示学习的域泛化人脸活体检测
CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing
论文作者:刘阿建、薛帅、甘剑文、万军、梁延研、邓健康、Sergio Escalera、雷震
在基于领域泛化(DG)的面部反欺诈(FAS)领域中,传统方法常依赖于领域标签来对齐不变的特征空间,或是从整体样本中分离出可泛化的特征,这两种方式都可能导致语义特征结构的扭曲,从而限制了模型的泛化能力。本工作针对现有基于域泛化的人脸防伪模型存在的泛化性能不足问题,设计了一种新型的免类别提示学习(CFPL)方法。该方法不直接操作视觉特征,而是利用大规模视觉语言模型(如CLIP)和文本特征,动态调整分类器的权重,以探索可泛化的视觉特征。CFPL通过两个轻量级变换器内容Q-Former(CQF)和风格Q-Former(SQF),利用一组可学习的查询向量,分别根据内容和风格特征学习不同的语义提示。通过引入提示文本匹配(PTM)监督和多样化风格提示(DSP)技术,进一步提升了模型的泛化能力。学到的文本特征通过设计的提示调制(PM)机制来调节视觉特征,以实现泛化。最终在多个数据集上达到了优于现有先进算法的性能。
图. 基于免类别提示学习的域泛化人脸活体检测框架
27. 基于密度引导和双空间困难采样的3D半监督语义分割
Density-guided Semi-supervised 3D Semantic Segmentation with Dual-space Hardness Sampling
论文作者:李嘉楠,董秋雷
现有的3D半监督语义分割通常使用点对点的对比学习,但这种技术容易受到外点影响,为解决该问题,我们提出了DDSemi。其中,DDSemi使用密度引导的点对锚的对比学习。考虑到聚类中心通常位于密度较大的区域,我们使用特征存储体中密度较大的特征来为每个类别估计一个锚向量。为了从无标签数据中挖掘出有效信息,我们使用不同的数据增强技术处理不同分支中的无标签点云,并分别计算分支内的点对锚对比损失和分支间的点对锚对比损失。除此之外,为了给位于密度较低区域的点更多的关注,我们提出了双空间困难采样技术,该技术能够基于每个点在几何空间和特征空间中的密度为其赋予不同的损失权重。在室内和室外的公开数据集中的分割结果表明DDSemi的性能超过了现有的3D半监督语义分割方法。
图. DDSemi的结构图
28. CrossMAE: 基于MAE的跨模态区域感知视听预训练模型
CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training
论文作者:郭雨欣、孙思洋、马帅磊、郑可成、包笑一、马时杰、邹伟、郑赟
模态对齐的表征是视听学习中不可或缺的部分,然而现有视听预训练方法仅关注了全局特征以及分类或检索任务,忽略了细粒度特征的交互和对齐,导致下游密集预测任务出现次优性能。针对上述问题,我们研究了可局部区域感知的视听预训练,提出具有出色的跨模态交互和局部区域对齐能力的通用视听预训练模型:CrossMAE。具体来说,我们提出了像素级和特征级两个难度递进的MAE子任务。以视觉模态为例(反之亦然),首先,被随机掩码的视觉模态在听觉模态的attentive tokens的指导下重建图像像素,从而有效关注细粒度特征并促进区域感知能力;进一步地,视觉模态在可学习learnable queries的指导下重建听觉模态的完整特征,从而有效加强模态间交互。实验表明,CrossMAE能够在分类,检索,定位,分割,事件定位等多个任务上均取得SOTA性能,证明了所提出预训练模型的有效性。同时,我们探究了模态交互及局部区域对齐对于单模态和跨模态表征能力的提升,并深入分析了所提出的attentive tokens和learnable queries具体的作用机理,证明了本模型的有效性。
图1. CrossMAE框架图
图2. 定性分析图
29. 开放场景自监督学习
Self-Supervised Representation Learning from Arbitrary Scenarios
论文作者:李朝闻、朱优松、陈志扬、高宗鑫、赵瑞、赵朝阳、唐明、王金桥
当前,自监督方法主要分为对比学习和掩码图像模型两大类。目前性能最强大的自监督模型正是组合这两种方法所构建的。然而,本文指出,组合方法本质上加强了全局一致性,却没有考虑对比学习和掩码图像模型之间的潜在冲突,这严重影响了它们在开放场景下的学习能力。本文从理论上证实了掩码图像模型实质上是一种基于区域级别的对比学习方法,图像中的每个区域被视为一个不同的类别。这与全局级别的对比学习形成了显著的冲突,后者将图像中的所有区域视为相同的类别。为了解决这一冲突,本文放弃了全局性约束,并提出了一种显式的区域性学习解决方案。具体来说,本文提出的技术在训练阶段采用了一种区域特征增强策略来构建解码双分支学习方案。这种学习方案使模型能够从开放场景中提取非同质化的特征表示,解决了组合方法中的学习冲突。通过在多个公开和混合数据集上的实验,本文证明了其在开放场景下的学习能力。
30. SC-Tune:解锁视觉语言模型的自洽指代理解能力
SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models
论文作者:岳同天、程杰、郭龙腾、戴星原、赵子嘉、何兴建、熊刚、吕宜生、刘静
当前大型视觉语言模型的研究日益聚焦于超越通用图像理解,朝向更细致的、目标级别的指代性理解。在本文中,我们提出并深入探讨了大型视觉语言模型的自恰性。这反映在模型具备既能为特定目标生成准确详细的描述,又能利用这些描述准确地重新定位原始目标的“闭环”式能力。该能力在很大程度上反映了模型细粒度视觉-语言理解的精确性和可靠性。然而先期实验表明,现有模型的自恰性水平未能达到预期,极大限制了它们的实际应用性和潜力。为了解决这一差距,我们引入了一种新颖的微调范式SC-Tune。它实现了模型描述-定位能力的循环式互促学习。这一范式不仅数据高效,而且在多个模型上展现了广泛的泛化能力。实验表明,SC-Tune显著提升了基线模型在一系列目标级视觉-语言基准测试中的性能,并在图像级视觉-语言基准测试中同样具备性能改善。
图. SC-Tune训练框架
31. 联合目标及其部件的精细粒度指代分割
Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression Segmentation
论文作者:王文轩、岳同天、张毅思、郭龙腾、何兴建、王鑫龙、刘静
指代分割任务(RES)旨在分割与描述性自然语言表达相匹配的前景实体掩膜。以往的数据集和经典的指代分割方法严重依赖于一个假设,即一条文本表达必须指向对象级目标。在本文中,我们进一步深入探索更细粒度的部件级指代分割任务。为了推动对象级指代分割任务朝着更细粒度的视觉语言理解发展,我们提出了一个全新的多粒度指代分割(MRES)任务,并通过手工注释的方式构建了一个名为RefCOCOm的评估基准。通过使用我们搭建的模型辅助的自动数据生成引擎,我们构建了迄今为止最大的视觉定位数据集,即MRES-32M,它包含提供的100万图像上的超过3220万个高质量视觉掩膜和相应的文本描述。此外,我们设计了一个简单而强大的基线模型UniRES,用以完成统一的对象级和部件级视觉定位任务。在我们的RefCOCOm上针对MRES任务的广泛实验以及三个经典RES任务的数据集(即RefCOCO、RefCOCO+和RefCOCOg)上的实验,证明了我们的方法相较于以往最先进方法的优越性。
图1. 经典的指代分割任务(RES)仅支持表示单一目标对象的自然语言表达,例如(a)。与经典RES相比,我们提出的联合目标及其部件的多粒度指代分割任务(MRES)支持表示目标对象的特定部分级区域的自然语言表达,例如,我们新构建的RefCOCOm基准测试集中的部分级自然语言表达(b)到(e)。
图2. 构建MRES-32M视觉定位数据集的数据收集引擎示意图
项目主页链接:
https://rubics-xuan.github.io/MRES/
Github链接:
https://github.com/Rubics-Xuan/MRES
32. 传统的 SNN 真的高效吗?从模型量化的视角出发
Are Conventional SNNs Really Efficient? A Perspective from Network Quantization
论文作者:申国斌、赵东城、李腾龙、李金东、曾毅
脉冲神经网络(SNN)以其事件驱动特性而闻名,展示出高能效和巨大的发展潜力。然而,对SNN与量化人工神经网络(QANN)进行深入的比较和相关性研究仍然不足,导致对这两者的评估可能缺乏公平性。我们引入了一种新的视角,发现SNN中的时间步长与QANN中激活值的量化位宽有着相似的表征特性。基于此,我们提出了一种更加实用和精确的方法来计算SNN的能量消耗。我们推出的“比特预算”(Bit Budget)概念,不同于传统的突触操作(SynOps),使我们能够在严格的硬件限制下深入探讨如何在权重、激活值和时间步长之间进行合理的计算和存储资源分配。在“比特预算”指导下,我们认识到对SNN而言,关注脉冲模式和权重量化比时间步长更能显著影响模型性能。利用比特预算进行SNNs的综合设计,可提升模型在不同数据类型(包括静态图像和神经形态数据集)中的性能。我们的研究不仅加深了对SNN与量化ANN之间相互关系的理解,也为未来高效能神经计算领域的探索指明了方向。
图1. 具有相同数量的特征位时,SNN 和量化 ANN 具有相同的复杂度的表示
图2. 在不同的FPGA平台和设置下, 单个突触操作的比特预算与能量消耗的关系
33. PeLK: 参数高效的大核外围卷积网络
PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution
论文作者:陈宏昊、初祥祥、任泳健、赵鑫、黄凯奇
近期,一些大核卷积神经网络以其优异的性能和效率卷土重来。然而,考虑到卷积的平方复杂度,直接扩大卷积核会产生大量的参数,而急剧增长的参数会导致严重的优化问题。由于这些问题,目前的CNN妥协于以条形卷积的形式扩展到51×51(即51×5+5×51),并随着内核大小的持续增长性能开始饱和。在本文中,我们深入研究了这些关键问题,并探讨是否可以继续扩展内核以获得更多性能提升。受人类视觉的启发,我们提出了一种类似人类的外围卷积,通过参数共享有效地减少了密集网格卷积90%以上的参数计数,并将卷积核大小扩展到非常大。我们的外围卷积的特征与人类非常相似,将卷积的复杂度从O(K^2)降低到O(logK)而不会影响精度。在此基础上,我们提出了参数高效的大核网络(PeLK)。我们的PeLK在各种视觉任务上优于现代视觉Transformer和ConvNet架构,如Swin, ConvNeXt, RepLKNet和SLaK,包括ImageNet分类,ADE20K上的语义分割和MS COCO上的目标检测。我们第一次成功地将CNN的内核大小扩展到前所未有的101×101,并展示了持续的改进。
34. 重新审视融合特征轨迹的全局式相机平移估计方法
Revisiting Global Translation Estimation with Feature Tracks
论文作者:陶沛霖、崔海楠、荣梦琪、申抒含
全局式相机平移估计是全局式运动恢复结构算法中极具挑战性的一步。绝大部分传统方法仅依赖于相机间相对平移作为输入,导致在低视差或相机共线运动场景下的相机位置估计出现退化问题。虽然一些方法通过融合特征点轨迹来缓解这些问题,但它们通常对异常值非常敏感。在本文中,我们首先回顾了已有利用特征点轨迹的全局式相机平移估计方法,并将其分为显式和隐式方法两类。然后,我们提出并分析了基于叉乘度量的目标函数的优越性,并提出了一种以相机相对平移和特征点轨迹同时作为输入的显式全局式相机平移估计新框架。另外,为了提高系统输入的准确性,我们使用极平面的共面性约束重新估计两视图相对平移,并提出一种简单而有效的策略来挑选可靠的特征点轨迹。通过在街景视频序列和无序互联网图像数据集上测试,并与许多最先进的技术相比,我们的方法展示了卓越的准确性和鲁棒性。
图. 该图展示了在自动驾驶数据集KITTI上,我们的方法HETA和其他SOTA方法估计的相机轨迹与真实相机轨迹对比。通过标定轨迹可以看出我们方法的准确性明显由于传统方法。其中,对比SOTA方法LUD发表于CVPR 2015,CReTA发表于ECCV 2022,LiGT发表于IEEE TPAMI 2021,PGILP发表于RAL 2019。
35. PanoPose:自监督全景图像相对位姿估计
PanoPose: Self-supervised Relative Pose Estimation for Panoramic Images
论文作者:屠殿韬、崔海楠、郑先伟、申抒含
在全局式从运动恢复结构(SfM)中,一个主要难点是估计具有尺度的相对位姿,即两张图像之间的相对旋转和具有尺度的相对平移。这个问题是由于传统的几何视觉方法(例如五点法)得到的相对平移是无尺度的。目前绝大部分方法都是在绝对位姿估计阶段解决该问题,而我们则考虑在相对位姿估计阶段解决。所以,我们提出了PanoPose,以完全自监督的方式估计有尺度的相对运动,并为全景图像构建了一个完整的全局式 SfM 流程。PanoPose 包含一个深度网络和一个位姿网络,通过估计的深度和相对位姿从相邻图像重建参考图像来实现自监督。为了提升大视角变换下位姿估计的精度,我们提出了一种纯旋转预训练策略。为了提升相对平移尺度的精度,我们使用一个融合模块将深度信息引入位姿估计中。
图1. (a)PanoPose的整体网络结构。(b)我们提出的融合模块的具体结构。
图2:在不同数据集上绝对位姿估计结果。红色轨迹是位姿的真值,蓝色的轨迹是位姿的估计值。第一行是五点法和BATA得到的结果。第二行是PanoPose和BATA的结果。第三行是PanoPose和L2IRLS的结果。
36. 基于无监督聚类分析的免对应非刚体点集配准
Correspondence-Free Non-Rigid Point Set Registration Using Unsupervised Clustering Analysis
论文作者:赵明阳、江敬恩、马雷、辛士庆、孟高峰、严冬明
本文提出了一种受无监督聚类分析启发的非刚性点集配准范式。不同于此前方法,将源点集和目标点集视作两个独立部分,本文采用整体框架,将它们分别建模为聚类中心和聚类成员,从而将点集配准过程转化为无监督聚类优化问题。为确保位移场的光滑性和鲁棒性,本文分别采用Tikhonov正则化和L1范数诱导的拉普拉斯核来约束和刻画位移场。可以证明,本文方法具有闭形式解,不依赖空间维数且可处理大形变。进一步,本文采用聚类诱导的Nyström低秩逼近算法,将Gram矩阵的计算和存储复杂性显著降低到线性,同时,本文为低秩近似结果给出了严格的理论误差界。实验表面,本文方法在各种标准数据集上都取得了最优性能,特别是对于大形变的物体。此外,本文还展示了所提出的方法在挑战性形状分析任务中的应用,包括医学数据配准和形状迁移。
图. 三维点集上的非刚性配准。蓝色和灰色模型分别代表源点云和目标点云,黄色模型是本文方法的配准结果。即使对于大形变的模型,本文方法也有很好配准效果。
#Auto-labeling
数据闭环的核心
BEV算法的开发已经到了深水区,各家都投入了大量的精力去做bev的落地开发,其中一块最关键的就是如何高效的完成BEV的数据标注,无论是BEV 3D目标, BEV去高精地图或者是BEV Occupancy。
相比于车端的感知算法,自动标注系统更像是一个不同模块组成的系统, 充分利用离线的算力和时序信息,才能得到更好的感知结果, 实际落地的时候,对于工程师的能力要求上了一个档次,想要把这些大模型大系统玩转的好和高效,也是非常不容易的。
时隔一年,看到Chatgpt的横空出世和人工智能大模型的井喷式爆发,也看到了SAM的zero shot的迁移能力,感觉技术发展实在是太快了
参考Chatgpt的训练方式, 大规模无监督的预训练 + 高质量数据集做具体任务的微调, 可能也会成为量产感知算法下一阶段需要发力的方向。
记录一下一些看到的学术界新的自动标注的方案,好几个工作都来自AI Lab 和 业界顶尖的玩家,真的非常给力。
也对我们自己的实际业务,做一些总结和思考, 内容比较多,工作也比较忙,会抽空闲的时候分几次更新, 有很多不对的地方,欢迎大家补充讨论!
3d目标 auto-labeling - 基于长时序激光雷达
Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object Detection (图森)
1、整体框架和之前的Auto4D, 3DAL都是差不多的,分为base detector + MOT + Refine三个模块, 在细节的实现上优于前面的方案
2、Base Detector 用了FSA, 这个地方也可以用任何的其他检测器,或者多模型做ensemble.
3、Tracking 模块采用了 Immotal Tracker, 并且做了forward tracking 和 backward tracking, 然后再将正反匹配的两次轨迹去重和组合,这个地方的核心目的是尽可能得到完整的连续轨迹, 会引入一些FP, 不过没关系,后续可以优化
4、Track-Centric Learning 是这篇论文的核心,和前作相比,有三个核心点:
-MIMO(Multi Input Multi Ouput): 3DAL 是Multi input Single output, 这个会造成一个问题就是前后的尺寸不连续, 人类标注员在标注的时候,一般都会选择整个物体序列中点云比较好的时刻,确定尺寸,然后确保全时序尺寸一致,这个标注在实际中也是非常重要的,如果时序尺寸不一致,对训练出来的结果尺寸前后容易跳变
-动态静态不分类,前作中对于物体动态静态先做了分类,然后单独处理。本文中,觉得没有必要,反而减少了物体的多样性,阻碍了数据的泛化。比如物体低速运动,或者一个人转圈啥的。所以在流水线中统一处理,大大简化了流程 (不过这个点,我们在实操过程中发现,如果物体是静态的,定位比较准确的话,直接使用世界坐标系插值会更加准确,基本都可以达到0.9甚至0.95以上的IOU,如果refine容易让物体的IOU反而有一点下降)
-设计了 full sequence track iou 来做轨迹的第一阶段匹配, 二阶段匹配再做轨迹内部的gt和proposal的关联,这样可以减少误匹配,鼓励更加高质量的IOU的Proposal作为正样本,并且具有时序连续性,让模型往整体轨迹最优的方向去做优化。
整体来说,效果能有大幅提升,实现上也更加简介高效,并且速度也比3DAL 快20倍(MIMO的设计和序列点云统一化坐标系的处理和特征提取模块,在训练可以用批处理并行)。
但是有一个点,无论精度多高的自动标注系统,还是需要人来做一些质检,才能用于量产中的项目。如果能在模型输出的时候,有一个flag, 能让质检员知道,哪些框需要检查,哪些是绝对OK的, 可以大大增加质检的效率,否则质检员很多时间还是得看一下每个bbox的质量,是否贴边啊啥的,其实还是比较费时间的。微调一个框和重新标注一个框,其实速度差不多。
DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds (AI LAB)
1、整个框架也是差不多的, 3段式, 检测 + MOT + Refine , 核心点在于强调上游的高召回率和跟踪, 下游强调细致的高精度优化
2、检测 采用了 centerPoint, 采用了多帧点云融合,TTA, Model Ensemble
3、MOT 也参考了Immotal Tracker 的一些思路, 前向和后向都做一次跟踪, 然后采用WBF来融合两次跟踪的框
4、核心是接下来的refine模块, 将下游优化分为三个目标, 形状优化(时序一致), 轨迹优化(时序平滑), 得分优化 (更容易筛选高质量框)
-Geometry Refine:
将一个轨迹内的点云都转换到物体中心坐标系,
Porposal to Point Encoding: 对每个点进行特征增强,加入每个点到bbox 6个面的距离 (这个地方参考之前的Lidar2阶段网络中的一些操作, 让模型知道点和框的关系,相当于把单帧的点云和框做了联合编码 )
在所有点云中,随机选取t个样本, 每个样本有对应的256个随机选择的点
每个点也是按上述 Proposal-to-Point Encoding 增强的
用PointNet 给选取的T个样本提取特征,生成初始几何查询 Q_geo
用PointNet 给全部的点云提取特征, 得到 Key_geo 和 V_geo
通过万能的 transformer来回归目标size(l,w,h)对应的embedding , 得到lwh
-Position Refine:
Position-aware Points Generation:
对于第i个目标, 随机从轨迹中挑选一个作为新的局部坐标系。然后将其他轨迹的所有框都转换到这个坐标系。
然后从每一帧选取随机固定的点,对于每个点,额外计算每个点到8个角点之间的距离, 从而得到27维的特征向量。
便于训练,所有的对象轨迹都用零填充到相同的长度
这个点的两个随机操作非常重要,相当于做了数据的増广, 一个是随机选择轨迹中的任意一个位置作为新的局部坐标系,一个是随机选取一些固定的点。
Attention-based Local-to-Global Position Interaction:
和geometry refine 中的query一样, Q_pos = Lx D, L代表轨迹长度,D代表特征,包含了 position-aware feature 和 confidence score
用PointNet 提取整条的目标轨迹, 得到 K_pos 和 V_pos, n_pos 代表点云的长度
Q_pos 首先送到自注意力模块中, 来捕获自身和其他模块之间的相对距离, 此外,在每个查询的位置应用一维掩码来权衡自注意力
Q_pos 和 K_pos, V_pos 送到corss_attention模块中,对局部到全局上下文位置进行建模
最后预测局部坐标系下面 dx, dy, dz的offset偏亮,以及theta 的航向角offset
Confidence Refine Module:
因为前面 3d detctor + offline tracking 会生成很多的3D框, 可能很多是FP或者是低IOU的, 因此,引入了一个置信度参考模型(CRM),
第一个是分类分支,通过更新分数来确定TP 还是 FP。如果预测 和gt 的IOU 低于一个值, 则为负样本, 如果高于某一个值,为正样本, 其它bbox没有影响
第二个是IOU预测分支, 预测回归到底有多少IOU。
将两个分支的结果融合,得到最后的更新分数
通过三个模块的refine优化,在高IOU下的表现非常优化,且输出得分是和TP/PF和IOU高低挂钩的。但是没有报告执行的时间,整体思路更加接近auto4d, 不过用transformer模块来做建模。
3d目标 auto-labeling - 基于SAM的2次开发
基于强大的SAM, 在3d点云标注方向,也有很多很有意思的2创, 尝试利用SAM强大的泛化能力,自动化的完成标注。
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model (百度)
将点云做bev投影映射,转换成bev Image
对于bev image做预处理, 对于intensity啥的处理一下
利用sam + mesh girds promts 完成语义分割
将分割后处理, 得到2D bbox, 然后在通过点云,得到3d bbox
非常有意思的尝试,但是估计离实际使用还是有比较大的距离
效果不是特别好, 且很多问题无法解决,比如树下站着几个人,bev下是无法标注的。
不过可以预见,基于sam的标注,在3d领域肯定会有更好的应用。
3D-Box-Segment-Anything - (AI Lab)
在图像里面点一个位置,自动得到3dbox + mask. 细节可以看这个视频:
实际试了一些,效果还可以,但是非常依赖于检测网络 VoxelNext的结果,这也就注定了这个在工业界肯定是不太够的,大量的框实际中还需要做很多调整。
但是sam这个潜力真的很大,在3d领域还需要一些优化和适配,大模型标注对于传统的手工标注一定是降维打击的。
Segment Any Point Cloud Sequences by Distilling Vision Foundation Models - Shanghai AI Lab
待更新!
3D去高精度地图 auto-labeling - 基于激光雷达
VMA: Divide-and-Conquer Vectorized Map Annotation System for Large-Scale Driving Scene (地平线 & HUST)
3D 去高精度地图 auto-labeling - 基于纯视觉BEV
MV-Map: Offboard HD-Map Generation with Multi-view Consistency (复旦大学)
NeMO: Neural Map Growing System for Spatiotemporal Fusion in Bird's-Eye-View and BDD-Map Benchmark (华为)
3D 场景重建预训练 - 基于视觉 Occupancy
Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction (PKU)
3D 场景重建预训练 - 基于激光雷达
AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud Dataset (AI-Lab)
ALSO: Automotive Lidar Self-supervision by Occupancy estimation (法雷奥)
3D场景重建预训练 - 基于Nerf
StreetSurf: Extending Multi-view Implicit Surface Reconstruction to Street Views (Shanghai AI Lab)