# 首个基于大语言模型的自动驾驶语言控制模型
Arxiv论文链接:https://arxiv.org/abs/2312.03543
项目主页:https://github.com/Petrichor625/Talk2car_CAVG
近年来,工业界和学术界都争先恐后地研发全自动驾驶汽车(AVs)。尽管自动驾驶行业已经取得了显著进展,但公众仍然难以完全接受且信任自动驾驶汽车。公众对完全将控制权交给人工智能的接受度仍然相对谨慎,这主要受到了对人机交互可靠性的担忧以及对失去控制的恐惧的阻碍。这些挑战在复杂的驾驶情境中尤为凸显,车辆必须做出分秒必争的决定,这强调了加强人与机器之间沟通的紧迫需求。因此,开发一个能让乘客通过语言指令控制车辆的系统显得尤为重要。这要求系统允许乘客基于当前的交通环境给出相应指令,自动驾驶汽车需准确理解这些口头指令并做出符合发令者真实意图的操作。
得益于大型语言模型(LLMs)的快速发展,与自动驾驶汽车进行语言交流已经变得可行。澳门大学智慧城市物联网国家重点实验室须成忠教授、李振宁助理教授团队联合重庆大学,吉林大学科研团队提出了首个基于大语言模型的自动驾驶自然语言控制模型(CAVG)。该研究使用了大语言模型(GPT-4)作为乘客的语意情感分析,捕捉自然语言命令中的细腻情感内容,同时结合跨模态注意力机制,让自动驾驶车辆识别乘客的语意目的,进而定位到对应的交通道路区域,改变了传统乘客和自动驾驶汽车交互的方式。该研究还利用区域特定动态层注意力机制(RSD Layer Attention)作为解码器,帮助汽车精确识别和理解乘客的语言指令,定位到符合意图的关键区域,从而实现了一种高效的“与车对话”(Talk to Car)的交互方式。
自动驾驶汽车理解乘客语意,涉及到两个关键领域——计算机视觉和自然语言处理。如何利用跨模态的算法,在复杂的语言描述和实际场景之间建立有效的桥梁,使得驾驶系统能够全面理解乘客的意图,并在多样的目标中进行智能选择,是当前研究的一个关键问题。
鉴于乘客的语言表达与实际场景之间存在较大的差异,传统方法通常难以准确地将乘客的语言描述转化为实际驾驶目标。现有的挑战在于:传统模型很难实现乘客的意图分析,模型往往无法在全局场景下进行综合信息分析,由于陷入局部分析而给出错误的定位结果。同时在面对多个符合语义的潜在目标时,模型如何判断筛选,从中选择最符合乘客期待的结果也是研究的一个关键难题。
现有的视觉定位的算法主要分为两大类,One-Stage Methods和Two-Stage Methods:
- One-Stage Methods: One-Stage Methods本质上是一种端到端的算法,它只需要一个单一的网络就能够同时完成定位和分类两件事。在这种方法中的核心思想是将文本特征和图片特征进行编码,然后映射到特定的语意空间中,接着直接在整张图像上预测对象的类别和位置,没有单独的区域提取步骤。
- Two-Stage Methods:在Two-Stage Methods中,视觉定位任务拆成先定位、后识别的两个阶段。其核心思想是利用一个视觉网络(如CenterNet),在图像中识别出潜在的感兴趣区域(Regions of Interest, ROI),将潜在的符合语意的位置和对应的特征向量保存下来。ROI区域将有用的前景信息尽可能多地保留下来,同时滤除掉对后续任务无用的背景信息,随后在第二个识别阶段,结合对应的语意信息在多个ROI区域中挑选出最符合语意的结果。
但不管是哪个任务,如何更好地理解不同模态信息之间的交互关系是图文视觉定位必须解决的核心问题。
算法和模型介绍
作者将视觉定位问题归纳为:“通过给出乘客的目标指令与自动驾驶汽车的前视图,模型能够处理一幅车辆的正面视图图像,以遵循给定的命令,在图像中准确指出车辆应导航至的目的地区域。”
图1.1 Region Proposal示意图
为了使这一目标具体化,模型将考虑为一个映射问题:将文本向量映射到候选子区域中最合适的子区域。具体而言,CAVG基于Two-Stage Methods的架构思想,利用CenterNet模型在图像I提取分割出多个候选区域(Region Proposal),提取出对应区域的区域特征向量和候选区域框(bounding boxes)。如下图所示, CAVG使用Encoder-Decoder架构:包含文本、情感、视觉、上下文编码器和跨模态编码器以及多模态解码器。该模型利用最先进的大语言模型(GPT-4V)来捕捉上下文语义和学习人类情感特征,并引入全新的多头跨模态注意力机制和用于注意力调制的特定区域动态(RSD)层进一步处理和解释一系列跨模态输入,在所有Region Proposals中选择最契合指令的区域。
图1.2 CAVG模型架构图
图1.3 Context Encoder中不同层输出示意图
数据集介绍
本工作采用了Talk2Car数据集。下图详细比较了Talk2Car和其他Visual Grounding相关数据集(如ReferIt、RefCOCO、RefCOCO+、RefCOCOg、Cityscape Ref和CLEVR-Ref)的异同。Talk2Car数据集包含11959个自然语言命令和对应场景环境视图的数据集,用于自动驾驶汽车的研究。这些命令来自nuScenes训练集中的850个视频,其中55.94%的视频拍摄于波士顿,44.06%的视频拍摄于新加坡。数据集对每个视频平均给出了14.07个命令。每个命令平均由11.01个单词、2.32个名词、2.29个动词和0.62个形容词组成。在每幅图像中,平均有4.27个目标与描述目标属于相同类别,平均每幅图片有10.70个目标。下图解释了文章所统计数据集中的指令长度和场景中交通车辆种类的布局。
符合C4AV挑战赛的要求,我们将预测区域利用bounding boxes在图中标出表示,同时采用左上坐标和右下坐标(x1,y1,x2,y2)的格式来提交对应的数据结果。t同时我们使用scores作为评估指标,定义为预测的bounding boxes中交并区域与实际边界框相交的比中超过0.5阈值的占比(IoU0.5)。这一评估指标在PASCAL(Everingham和Winn,2012年)、VOC(Everingham等人,2010年)和COCO(Lin等人,2014年)数据集等挑战和基准测试中广泛使用,为我们的预测准确性提供了严格的量化,并与计算机视觉和对象识别任务中的既定实践相一致。以下方程详细说明了预测边界框和实际边界框之间的IoU的计算方法:
实验结果
在对应文章中未公开相关的星系。这种分类阐明了影响每个模型性能的基本组件和策略。下图中的粗体值和下划线值分别代表最佳的模型和第二好的模型。
为了严格评估CAVG的模型在现实场景中的有效性,文章根据语言命令的复杂性和视觉环境的挑战,文章精心地划分了测试集。一方面,由于较长的命令可能会引入不相关的细节,或者对自动驾驶汽车来说更难理解。对于长文本测试集,我们采用了一种数据增强策略,在不偏离原始语义意图的情况下,增加了数据集的丰富性。我们使用GPT扩展了命令长度,得到的命令范围从23到50个单词。进一步评估模型处理扩展的语言输入的能力,对模型的适应性和鲁棒性进行全面的评估。
另一方面,为了进一步衡量模型的泛用性,本文还额外选取构造了特定的测试场景场景:如低光的夜晚场景、复杂物体交互的拥挤城市环境、模糊的命令提示以及能见度下降的场景,使预测更具困难。将而外构造的两个测试集合分别称为为Long-text Test和Corner-case Test。
除此之外,仅使用一半的数据集CAVG(50%)和CAVG(75%)迭代显示出令人印象深刻的性能。提供足够的训练数据时,我们的模型CAVG和CAVG(75%)在部分特殊场景中表现出色。
#中低算力平台友好的环视特征融合方案
车端感知算法变迁
FastBEV的目标是面向于实时的车端的一个BEV环视的感知芯片。它的一个特点是一个中低算力友好的实现方案。如图1所示自动驾驶感知算法的变迁,它可能不同阶段不同方案是受到不同的数据积累不同的算法优化的一个成熟度,还有一个车端算力的芯片提升以及说我们对不同的功能需求的多样性之类的都是相关的,那他可能目前可能这段时间内的一些优化方向的话,一方面可能会考虑到说跨平台,以及部署的问题,要兼容到一些不同的算力平台。
这两年自动驾驶感知发展比较快的几年,技术的变迁目标都是为了解决上一代方案痛点,2D方案的缺点在于深度不准,单目3D方案的缺点在于后融合繁琐易错且耗时。单帧环视3D的方案的缺点在于局部感知的能力,受限于单帧输入。时序环视3D的方案的优点在于长时序融合,提高稳定性,可以理解为“检测+跟踪的端到端”。多传感器融合环视3D方案:对齐特征融合了多传感器的特征,感知能力更强。而大家所期待的端到端的放哪:下一代规控,更好地接入感知特征,管线更加简化,或者换句话说更加丝滑了。
BEV versus Occupancy
如图2所示,对于环视前融合这样方案,初步阶段是一个基于BEV future的融合,只有一层BEV的特征,换一个思维理解,就是在纯鸟瞰图下的一个2D BEV特征。它可能同时有传统维和深度维,跟着这个一个思路,比如说把BEV给它拉伸到一个三维的空间去做。基于三维的空间去预测相关的占据,那这就是占据网络相关的思路,最大的一个问题是这个东西会非常的重。如图2中的所表示的 Surround-OCC 网络结构所示。那么是否有轻量化的Occ 表示呢,Flash-OCC 网络就是这样设计,核心点是2D 转3D,会发现是一个比较慢的东西,因为刚刚提到这个特征,又要有深度,又要有一个特征为本身的维度,还涉及到要有六个camera的话,那可能六个camera先各自要做一份。图2中这几篇工作,都是先会把它放到一个好的BEV特征上,然后再去做后续任务,基于这个也能看到一个点,BEV特征融合后的特征,对于各个任务首先都是一个比较好的初始。融合一个统一特征本身,它的任务本身还是比较能够泛化的。
Dense 2D to 3D project
图3 所示主要是说明了显示和隐式的2D转3D,隐式就没有显示的去构建这样一个2D转3D(它的一个类似于索引和融合这样一个过程),隐的方式是从原始的构建2D特征,同时构建出一系列初始的3D点的一些散点。把它作为一个3D的坐标点序列,作为一个位置编码去编码2D特征里面,然后再去接一些position,Encoder和一些结构直接去3D结构,核心用的还是那样一些对应关系,但是它可能就不用显示的先构建出一个BEV特征。
BEVPool V2 versus FastBEV
如图4所示,首选Fast BEV 设计的本身吸收了很多新的Trick 比如时序的融合,2D,3D的引入,深度上不去做过进一步的深度预测,这样的一个隐式深度假设我们就直接均匀的给它铺开。基于这个思想核心的实现,就它是这个东西是可以做的非常快的点是什么?如图4中比如说如果这是一个车子,自车是红色的,可能每个camera只拍到了各自的一部分特征。原来M2BEV 的实现,是每一部分特征各自放一份,然后第二个也各自放一份,完了之后再把六份这样的结果,但是核心点会发现说,因为放就是每个camera之间它的重叠区域会非常小。也就是说,只有涉及到一些重叠区域的时候,它可能才涉及到说这部分的特征是来自不同camera的。然后在每个camera各自拍到的那部分特征之下,它各自特征基本上都是沿着射线等价的。
我们觉得说我两个设计都相机都拍到了,那我也不用考虑那么多了,我就只留一份,这个会造成一个什么样的结果?那这样的就变成了说我们每一个voxels 这个格子应该填每一个camera下的哪个位置的特。它就是一个固定的东西了。那这样的话,只需要通过最终的一个voxels的大小的volume的每一个索引值,就去只需要建立一遍索引。比如说零零这个位置的特征。只需要拿,比如说第一个camera的,比如说第33某个位置的特征,我只要通过建立这样的索引关系,我就直接这样循环做一遍去填充,然后这样就填完了,这样可以做的非常快,其实整个过程是一个静态的参数对应的一个东西,它本身就可以建立一个叉表,其次还完全省去了六个camera各自要构建一遍再同步去做融合这个事.
Fast BEV 的主要贡献
如图5 所示 Fast BEV 的主要贡献
1) FastBEV 论证了在对齐训练Trick 的情况下, 基于深度均匀假设的环视特征融合方案相比于其他dense 方案进度损失很小
2) 支持了查找表优化和多合一voxel 加速,可实现优异的跨平台&不同算力高效部署性能,使得在低算力平台快速部署环视BEV 模型成为可能
3) 2D 转3D 算子作为环视感知方案的核心组建,其优化可赋能任何基于Dense BEV feature的下游任务
最后的彩蛋
如图6 所示为Fast BEV 经典的pipeline, 在此致敬一下这种查找表的创新之作,最后关于完整的视频分享,后续会整理出更加详细的内容和视频
#相机与激光雷达~主流的标定工具
相机与激光雷达的标定是很多任务的基础工作,标定精度决定了下游方案融合的上限,因为许多自动驾驶与机器人公司投入了较大的人力物力不断提升,今天也为大家盘点下常见的Camera-Lidar标定工具箱,建议收藏!
(1)Libcbdetect
一次拍摄多棋盘格检测:https://www.cvlibs.net/software/libcbdetect/
MATLAB代码实现,该算法自动提取角到亚像素精度,并将它们组合成(矩形)棋盘状图案。它可以处理各种图像(针孔相机、鱼眼相机、全向相机)。
(2)Autoware 标定包
Autoware 框架的激光雷达-相机标定工具包。
链接:https://github.com/autowarefoundation/autoware_ai_utilities/tree/master/autoware_camera_lidar_calibrator
(3)基于3D-3D匹配的靶标标定
基于3D-3D点对应关系的激光雷达相机标定,ROS包,出自论文《LiDAR-Camera Calibration using 3D-3D Point correspondences》!
链接:https://github.com/ankitdhall/lidar_camera_calibration
(4)上海 AI Lab OpenCalib
上海人工智能实验室出品,OpenCalib提供了一个传感器标定工具箱。工具箱可用于标定IMU、激光雷达、相机和Radar等传感器。
链接:https://github.com/PJLab-ADG/SensorsCalibration
(5)Apollo 标定工具
Apollo标定工具箱,链接:https://github.com/ApolloAuto/apollo/tree/master/modules/calibration
(6)Livox-camera标定工具
本方案提供了一个手动校准Livox雷达和相机之间外参的方法,已经在Mid-40,Horizon和Tele-15上进行了验证。其中包含了计算相机内参,获得标定数据,优化计算外参和雷达相机融合应用相关的代码。本方案中使用了标定板角点作为标定目标物,由于Livox雷达非重复性扫描的特点,点云的密度较大,比较易于找到雷达点云中角点的准确位置。相机雷达的标定和融合也可以得到不错的结果。
链接:https://github.com/Livox-SDK/livox_camera_lidar_calibration
中文文档:https://github.com/Livox-SDK/livox_camera_lidar_calibration/blob/master/doc_resources/README_cn.md
(7)CalibrationTools
CalibrationTools为激光雷达-激光雷达、激光雷达相机等传感器对提供标定工具。除此之外,还提供了:
1)定位-偏差估计工具估计用于航位推算(IMU和里程计)的传感器的参数,以获得更好的定位性能!
2)Autoware控制输出的可视化和分析工具;
3)用于修复车辆指令延迟的校准工具;
链接:https://github.com/tier4/CalibrationTools
(8)Matlab
Matlab自带的工具箱,支持激光雷达和相机的标定,链接:https://ww2.mathworks.cn/help/lidar/ug/lidar-and-camera-calibration.html
(9)ROS 标定工具
ROS Camera LIDAR Calibration Package,链接:https://github.com/heethesh/lidar_camera_calibration
(10)Direct visual lidar calibration
该软件包提供了一个用于激光雷达相机标定的工具箱:可通用:它可以处理各种激光雷达和相机投影模型,包括旋转和非重复扫描激光雷达,以及针孔、鱼眼和全向投影相机。无目标:它不需要标定目标,而是使用环境结构和纹理进行标定。单次拍摄:标定至少只需要一对激光雷达点云和相机图像。可选地,可以使用多个激光雷达相机数据对来提高精度。自动:标定过程是自动的,不需要初始猜测。准确和稳健:它采用了像素级直接激光雷达相机配准算法,与基于边缘的间接激光雷达相机配准相比,该算法更稳健和准确。
链接:https://github.com/koide3/direct_visual_lidar_calibration
(11)2D lidar-camera工具箱
链接:https://github.com/MegviiRobot/CamLaserCalibraTool
#2024自动驾驶热点方向
最新的热点方向涉及端到端自动驾驶、大语言模型、Occupancy、SLAM、车道线检测、3D检测、协同感知、点云处理、MOT、毫米波雷达、Nerf、Gaussian Splatting等方向;
CVPR2024仓库链接:https://github.com/autodriving-heart/CVPR-2024-Papers-Autonomous-Driving
1) End to End | 端到端自动驾驶
Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
- Paper: https://arxiv.org/pdf/2312.03031.pdf
- Code: https://github.com/NVlabs/BEV-Planner
Visual Point Cloud Forecasting enables Scalable Autonomous Driving
- Paper: https://arxiv.org/pdf/2312.17655.pdf
- Code: https://github.com/OpenDriveLab/ViDAR
PlanKD: Compressing End-to-End Motion Planner for Autonomous Driving
- Paper: https://arxiv.org/pdf/2403.01238.pdf
- Code: https://github.com/tulerfeng/PlanKD
VLP: Vision Language Planning for Autonomous Driving
- Paper:https://arxiv.org/abs/2401.05577
2)LLM Agent | 大语言模型智能体
ChatSim: Editable Scene Simulation for Autonomous Driving via LLM-Agent Collaboration
- Paper: https://arxiv.org/pdf/2402.05746.pdf
- Code: https://github.com/yifanlu0227/ChatSim
LMDrive: Closed-Loop End-to-End Driving with Large Language Models
- Paper: https://arxiv.org/pdf/2312.07488.pdf
- Code: https://github.com/opendilab/LMDrive
MAPLM: A Real-World Large-Scale Vision-Language Dataset for Map and Traffic Scene Understanding
- Code: https://github.com/LLVM-AD/MAPLM
One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models
- Paper:https://arxiv.org/pdf/2403.01849.pdf
- Code:https://github.com/TreeLLi/APT
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models
- Paper:https://arxiv.org/pdf/2403.02781
RegionGPT: Towards Region Understanding Vision Language Model
- Paper:https://arxiv.org/pdf/2403.02330
3)SSC: Semantic Scene Completion | 语义场景补全
Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
- Paper: https://arxiv.org/pdf/2306.15670.pdf
- Code: https://github.com/hustvl/Symphonies
PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness
- Paper: https://arxiv.org/pdf/2312.02158.pdf
- Code: https://github.com/astra-vision/PaSCo
4)OCC: Occupancy Prediction | 占用感知
SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction
- Paper: https://arxiv.org/pdf/2311.12754.pdf
- Code: https://github.com/huang-yh/SelfOcc
Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications
- Paper: https://arxiv.org/pdf/2311.17663.pdf
- Code: https://github.com/haomo-ai/Cam4DOcc
PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation
- Paper: https://arxiv.org/pdf/2306.10013.pdf
- Code: https://github.com/Robertwyq/PanoOcc
5)车道线检测
Lane2Seq: Towards Unified Lane Detection via Sequence Generation
- Paper:https://arxiv.org/abs/2402.17172
6)Pre-training | 预训练
UniPAD: A Universal Pre-training Paradigm for Autonomous Driving
- Paper: https://arxiv.org/pdf/2310.08370.pdf
- Code: https://github.com/Nightmare-n/UniPAD
7)AIGC | 人工智能内容生成
Panacea: Panoramic and Controllable Video Generation for Autonomous Driving
- Paper: https://arxiv.org/pdf/2311.16813.pdf
- Code: https://github.com/wenyuqing/panacea
SemCity: Semantic Scene Generation with Triplane Diffusion
- Paper:
- Code: https://github.com/zoomin-lee/SemCity
BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D Scene Generation
- Paper: https://arxiv.org/pdf/2312.02136.pdf
- Code: https://github.com/zqh0253/BerfScene
8)3D Object Detection | 三维目标检测
PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection
- Paper: https://arxiv.org/pdf/2312.08371.pdf
- Code: https://github.com/KuanchihHuang/PTT
VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection
- Code: https://github.com/skmhrk1209/VSRD
CaKDP: Category-aware Knowledge Distillation and Pruning Framework for Lightweight 3D Object Detection
- Code: https://github.com/zhnxjtu/CaKDP
CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors Object Detection from Multi-view Images
- Paper:https://arxiv.org/abs/2403.04198
- Code:https://github.com/SerCharles/CN-RMA
UniMODE: Unified Monocular 3D Object Detection
- Paper:https://arxiv.org/abs/2402.18573
Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors
- Paper:https://arxiv.org/abs/2403.06093
- Code:https://github.com/nullmax-vision/QAF2D
SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection
- Paper:https://arxiv.org/abs/2403.05817
- Code:https://github.com/zhanggang001/HEDNet
RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features
- Paper:https://arxiv.org/pdf/2403.05061
9)Stereo Matching | 双目立体匹配
MoCha-Stereo: Motif Channel Attention Network for Stereo Matching
- Code: https://github.com/ZYangChen/MoCha-Stereo
Learning Intra-view and Cross-view Geometric Knowledge for Stereo Matching
- Paper:https://arxiv.org/abs/2402.19270
- Code:https://github.com/DFSDDDDD1199/ICGNet
Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching
- Paper:https://arxiv.org/abs/2403.00486
- Code:https://github.com/Windsrain/Selective-Stereo
10)Cooperative Perception | 协同感知
RCooper: A Real-world Large-scale Dataset for Roadside Cooperative Perception
- Code: https://github.com/ryhnhao/RCooper
11)SLAM
SNI-SLAM: SemanticNeurallmplicit SLAM
- Paper: https://arxiv.org/pdf/2311.11016.pdf
CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition
- Paper:https://arxiv.org/abs/2402.19231
- Code:https://github.com/Lu-Feng/CricaVPR
12)Scene Flow Estimation | 场景流估计
DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement
- Paper: https://arxiv.org/pdf/2311.17456.pdf
- Code: https://github.com/IRMVLab/DifFlow3D
3DSFLabeling: Boosting 3D Scene Flow Estimation by Pseudo Auto Labeling
- Paper: https://arxiv.org/pdf/2402.18146.pdf
- Code: https://github.com/jiangchaokang/3DSFLabelling
Regularizing Self-supervised 3D Scene Flows with Surface Awareness and Cyclic Consistency
- Paper: https://arxiv.org/pdf/2312.08879.pdf
- Code: https://github.com/vacany/sac-flow
13)Point Cloud | 点云
Point Transformer V3: Simpler, Faster, Stronger
- Paper: https://arxiv.org/pdf/2312.10035.pdf
- Code: https://github.com/Pointcept/PointTransformerV3
Rethinking Few-shot 3D Point Cloud Semantic Segmentation
- Paper: https://arxiv.org/pdf/2403.00592.pdf
- Code: https://github.com/ZhaochongAn/COSeg
PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation
- Code: https://github.com/JinfengX/PointCloudPDF
14) Efficient Network
Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications
- Paper: https://arxiv.org/pdf/2401.06197.pdf
RepViT: Revisiting Mobile CNN From ViT Perspective
- Paper: https://arxiv.org/pdf/2307.09283.pdf
- Code: https://github.com/THU-MIG/RepViT
15) Segmentation
OMG-Seg: Is One Model Good Enough For All Segmentation?
- Paper: https://arxiv.org/pdf/2401.10229.pdf
- Code: https://github.com/lxtGH/OMG-Seg
Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation
- Paper: https://arxiv.org/pdf/2312.04265.pdf
- Code: https://github.com/w1oves/Rein
SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation
- Paper:https://arxiv.org/abs/2311.15707
SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation
- Paper:https://arxiv.org/abs/2311.15537
Style Blind Domain Generalized Semantic Segmentation via Covariance Alignment and Semantic Consistence Contrastive Learning
- Paper:https://arxiv.org/abs/2403.06122
16)Radar | 毫米波雷达
DART: Doppler-Aided Radar Tomography
- Code: https://github.com/thetianshuhuang/dart
17)Nerf与Gaussian Splatting
Dynamic LiDAR Re-simulation using Compositional Neural Fields
- Paper: https://arxiv.org/pdf/2312.05247.pdf
- Code: https://github.com/prs-eth/Dynamic-LiDAR-Resimulation
GSNeRF: Generalizable Semantic Neural Radiance Fields with Enhanced 3D Scene Understanding
- Paper:https://arxiv.org/abs/2403.03608
NARUTO: Neural Active Reconstruction from Uncertain Target Observations
- Paper:https://arxiv.org/abs/2402.18771
DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization
- Paper:https://arxiv.org/abs/2403.06912
S-DyRF: Reference-Based Stylized Radiance Fields for Dynamic Scenes
- Paper:https://arxiv.org/pdf/2403.06205
SplattingAvatar: Realistic Real-Time Human Avatars with Mesh-Embedded Gaussian Splatting
- Paper:https://arxiv.org/pdf/2403.05087
DaReNeRF: Direction-aware Representation for Dynamic Scenes
- Paper:https://arxiv.org/pdf/2403.02265
18)MOT: Muti-object Tracking | 多物体跟踪
Delving into the Trajectory Long-tail Distribution for Muti-object Tracking
- Code: https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT
DeconfuseTrack:Dealing with Confusion for Multi-Object Tracking
- Paper:https://arxiv.org/abs/2403.02767
19)Multi-label Atomic Activity Recognition
Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes
- Paper: https://arxiv.org/pdf/2311.17948.pdf
- Code: https://github.com/HCIS-Lab/Action-slot
20) Motion Prediction | 运动预测
SmartRefine: An Scenario-Adaptive Refinement Framework for Efficient Motion Prediction
- Code: https://github.com/opendilab/SmartRefine
21)卷积网络相关
CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object Localization Perspective
- Paper:https://arxiv.org/abs/2403.06676
- Code:https://github.com/snskysk/CAM-Back-Again
#Radar能摆脱不同天气对SLAM的限制吗?
一篇早期的基于毫米波雷达的SLAM系统,提出一种室外环境大尺度带回环的定位建图方法,主要贡献为:
- 利用radar的几何和图表达,进行有效可靠的特征匹配和tacking
- 基于radar image生成概率点云,极大减少了斑点噪声
- 基于图优化能够处理不同天气情况的完整SLAM系统
- 证明了大雾和大雪极端天气的运行稳定性
(在oxford数据集上的建图效果)
首先简单介绍了radar传感器的噪声和几何
- 噪声主要有测距误差、方位角误差、false-positive and false-negative detection。比较麻烦的是false-positive,包括杂波、旁瓣、多路经反射(引起前后帧不一致)和接收器饱和(对表面发射率和反射器姿态非常敏感)
- 几何特点与lidar相似,论文的radar和oxford数据集一样是装在车顶360度的radar,但不可测速度,通过方位角和距离可以把raw polar scan转换成灰度图
1. System
主要是前端会有所不同,后端与ORB类似
1.1 pose tracking
- 输入是radar gray image,利用SURF进行frame-to-key frame提取特征点
- 描述子匹配特征
- 利用运动先验的最大速度可以限制匹配搜索半径(不用全图搜索)
- 成对一致性约束:匹配对应有相似运动趋势
具体做法是:
- 提取特征点,并且利用搜索半径约束得到initial matches
- 对于任意两个点对,都应该满足成对一致性,实际就是点对的长度应该差不多长
1.2 local mapping
- 一旦有新的关键帧,就把其关键点转化到世界系下生成map points
- 附近key frames能够观测到这些新的map points的关键帧及其他们的map points参与到local BA,优化key frames的pose和map points
- 如果新的map points没被超过2帧看到,则剔除最新的关键帧
1.3 loop closure detection
没用BoW的原因:
- radar image不像普通图片特征丰富和明显
- 多路经效应会给描述子带来歧义性
- radar的一个小旋转都会产生巨大的场景变化,极大改变了描述子直方图的分布
回环检测方法:
- 通过算法将radar image转成点云,如果只是在每个方位角上直接找局部最大值,选出的点是随机分布,严重收到斑点噪声影响,但是将每个方位角的peak建模成高斯分布可以有效保留环境结构并抑制多路经和噪声影响
选择超出一个标准差且大于均值的peak可以分开真实检测和false-positive,具体点云转化算法:
- 对于每个方位角,通过阈值最小峰值和最小距离阈值检测很多peak,这其中会包含很多噪声(false-positive)
- 计算每个方位角上,所有检测到的peak的均值和标准差
- 只要满足大于高斯分布均值和标准差,就转成点云
- 采用点云的M2DP做描述子(利用点云在不同平面上的密度和左右奇异向量)
1.4 pose graph optimization
- 如果有回环检测到,会先利用RANSAC和ICP匹配检测帧和当前帧,如果ICP收敛,则加入回环约束
- 所有的关键帧一起图优化,在成功优化pose之后,更新全局地图的map points(所以图优化只优化pose?)
2. Experiments
2.1 Quantitative Evaluation
- 在oxford数据集上跑了5组,本文的radar slam相比只用radar odometry要准很多
- 最后4行是基于radar的方法,另外2个方法只有平均平移和旋转
- 基于视觉和Lidar的方法根本跑不完整个数据集,精度也没法看
2.2 Qualitative Evaluation
作者自己采集了极端雾天、雨天、雪天、夜晚5个数据,在这些情况下radar相比camera和lidar能正常工作,并且后3个数据有回环,效果很好
#激光雷达LIDAR基本工作原理
1、激光雷达LiDAR工作原理
激光雷达LiDAR的全称为Light Detection and Ranging激光探测和测距,又称光学雷达。
激光雷达的工作原理:对人畜无害的红外光束Light Pluses发射、反射和接收来探测物体。能探测的对象:白天或黑夜下的特定物体与车之间的距离。甚至由于反射度的不同,车道线和路面也是可以区分开来的。哪些物体无法探测:光束无法探测到被遮挡的物体。
车用激光雷达工作原理就是蝙蝠测距用的回波时间(Time of Flight,缩写为TOF)测量方法。分析目标物体表面的反射能量大小、反射波谱的幅度、频率和相位等信息,输出点云,从而呈现出目标物精确的三维结构信息。
激光雷达测距及点云
但要知道光速是每秒30万公里。要区分目标厘米级别的精确距离,那对传输时间测量分辨率必须做到1纳秒。要如此精确的测量时间,因此对应的测量系统的成本就很难降到很低,需要使用巧妙的方法降低测量难度。
首先,我们需要明确,激光雷达并不是独立运作的,一般是由激光发射器、接收器和惯性定位导航三个主要模块组成。当激光雷达工作的时候,会对外发射激光,在遇到物体后,激光折射回来被CMOS传感器接收,从而测得本体到障碍物的距离。从原理来看,只要需要知道光速、和从发射到CMOS感知的时间就可以测出障碍物的距离,再结合实时GPS、惯性导航信息与计算激光雷达发射出去角度,系统就可以得到前方物体的坐标方位和距离信息。
紧接着,一个激光雷达如果能在同一个空间内,按照设定好的角度发射多条激光,就能得到多条基于障碍物的反射信号。再配合时间范围、激光的扫描角度、GPS 位置和 INS 信息,经过数据处理后,这些信息配合x,y,z坐标,就会成为具有距离信息、空间位置信息等的三维立体信号,再基于软件算法组合起来,系统就可以得到线、面、体等各种相关参数,以此建立三维点云图,绘制出环境地图,就能变成汽车的“眼睛”。
激光雷达是由激光发射单元和激光接收单元组成,发射单元的工作方式是向外发射激光束层,层数越多,精度也越高(如下图所示),不过这也意味着传感器尺寸越大。发射单元将激光发射出去后,当激光遇到障碍物会反射,从而被接收器接收,接收器根据每束激光发射和返回的时间,创建一组点云,高质量的激光雷达,每秒最多可以发出200多束激光。
不同激光束形成的激光点云
对于激光的波长,目前主要使用使用波长为905nm和1550nm的激光发射器,波长为1550nm的光线不容易在人眼液体中传输。故1550nm可在保证安全的前提下大大提高发射功率。大功率能得到更远的探测距离,长波长也能提高抗干扰能力。但是1550nm激光需使用InGaAs,目前量产困难。故当前更多使用Si材质量产905nm的LiDAR。通过限制功率和脉冲时间来保证安全性。
1.1 技术原理
激光雷达探测的具体技术可以分为TOF飞行时间法与相干探测方法。其中ToF方法可以进一步区分为iToF和dToF方法;
1.1.1飞行时间(ToF)探测方法
通过直接计算发射及接收电磁波的时间差测量被测目标的距离;
1.1.2 相干探测方法(如:FMCW)
通过测量发射电磁波与返回电磁波的频率变化解调出被测目标的距离及速度;
FMCW雷达原理示意图
1.2 激光雷达的FOV
FOV指激光雷达能够探测到的视场范围,可以从垂直和水平两个维度以角度来衡量范围大小,下图比较形象的展示了激光雷达FOV范围,之所以要提到FOV是因为后面不同的技术路线基本都是为了能够实现对FOV区域内探测。
垂直FOV:常见的车载激光雷达通常在25°,形状呈扇形;
水平FOV:常见的机械式激光雷达可以达到360°范围,通常布置于车顶;常见的车载半固态激光雷达通常可以达到120°范围,形状呈扇形,可布置于车身或车顶;
1.3 激光雷达在L2+的性能要求
对于激光雷达在L2+的性能要求如下:
a、测距距离有要求,高速场景下至少有150米以上的探测距离
b、具有120FOV宽视角,满足十字路口等特殊场景的检测;
c、测距的精准度,满足≤3cm,角分辨率越小越好,水平和垂直≤0.3°
d、具备100线以上的扫描效果和百万级别点频,这样遇到150米以外的物体也能反射回足够多的激光点云用于识别
e、具有车规级标准的工作温度,能够规模化生产
f、体积一定要小,方便车企的造型设计
2、激光雷达结构
激光雷达的关键部件按照信号处理的信号链包括控制硬件DSP(数字信号处理器)、激光驱动、激光发射发光二极管、发射光学镜头、接收光学镜头、APD(雪崩光学二极管)、TIA(可变跨导放大器)和探测器,如下图所示。其中除了发射和接收光学镜头外,都是电子部件。随着半导体技术的快速演进,性能逐步提升的同时成本迅速降低。但是光学组件和旋转机械则占具了激光雷达的大部分成本。
激光雷达的关键部件
3、激光雷达的种类
把激光雷达按照扫描方式来分类,目前有机械式激光雷达、半固态激光雷达和固态激光雷达三大类。其中机械式激光雷达最为常用,固态激光雷达为未来业界大力发展方向,半固态激光雷达是机械式和纯固态式的折中方案,属于目前阶段量产装车的主力军。
3.1 机械式激光雷达
3.1.1 工作原理
发射和接收模块被电机电动进行360度旋转。在竖直方向上排布多组激光线束,发射模块以一定频率发射激光线,通过不断旋转发射头实现动态扫描。
机械式雷达常见结构示意图
百度Apollo自动驾驶项目测试车辆
3.1.2 优劣势分析
优势:机械式激光雷达作为最早装车的产品,技术已经比较成熟,因为其是由电机控制旋转,所以可以长时间内保持转速稳定,每次扫描的速度都是线性的。并且由于『站得高』,机械式激光雷达可以对周围环境进行精度够高并且清晰稳定的360度环境重构。
劣势:虽然技术成熟,但因为其内部的激光收发模组线束多,并且需要复杂的人工调教,制造周期长,所以成本并不低,并且可靠性差,导致可量产性不高。其次,机械式激光雷达体积过大,消费者接受度不高。最后,它的寿命大约在1000h~3000h,而汽车厂商的要求是至少13000h,这也决定了其很难走向C端市场。
3.2 半固态—MEMS式激光雷达
MEMS全称Micro-Electro-Mechanical System(微机电系统),是将原本激光雷达的机械结构通过微电子技术集成到硅基芯片上。本质上而言MEMS激光雷达并没有做到完全取消机械结构,所以它是一种半固态激光雷达。
3.2.1 工作原理
MEMS在硅基芯片上集成了体积十分精巧的微振镜,其核心结构是尺寸很小的悬臂梁——通过控制微小的镜面平动和扭转往复运动,将激光管反射到不同的角度完成扫描,而激光发生器本身固定不动。
MEMS激光雷达微振镜模块
MEMS核心部件-微振镜结构示意
3.2.2 优劣势分析
优势:MEMS激光雷达因为摆脱了笨重的「旋转电机」和「扫描镜」等机械运动装置,去除了金属机械结构部件,同时配备的是毫米级的微振镜,这大大减少了MEMS激光雷达的尺寸,与传统的光学扫描镜相比,在光学、机械性能和功耗方面表现更为突出。其次,得益于激光收发单元的数量的减少,同时MEMS振镜整体结构所使用的硅基材料还有降价空间,因此MEMS激光雷达的整体成本有望进一步降低。
劣势:MEMS激光雷达的「微振镜」属于振动敏感性器件,同时硅基MEMS的悬臂梁结构非常脆弱,外界的振动或冲击极易直接致其断裂,车载环境很容易对其使用寿命和工作稳定性产生影响。其次,MEMS的振动角度有限导致视场角比较小(小于120度),同时受限于MEMS微振镜的镜面尺寸,传统MEMS技术的有效探测距离只有50米,FOV角度只能达到30度,多用于近距离补盲或者前向探测。
目前,由于MEMS上游供应链已经相对成熟,比如Luminar的MEMS半固态激光雷达已将制造成本降低到了500-1000美元,使规模量产成为了可能。国内方面,速腾聚创和广汽埃安、威马、极氪等11家车企建立了合作,同时其产品「RS-LiDAR-M1」已于2020年12月开始批量出货,成为全球首款批量交付的车规级MEMS激光雷达。海外方面,Luminar在全球范围内已拥有50多位行业合作伙伴,其中包括沃尔沃、上汽飞凡汽车、小马智行等。
3.2.3 微震镜不同驱动方式特点
3.3 半固态—转镜式激光雷达
转镜式激光雷达与MEMS激光雷达差异在于,前者的扫描镜是围绕着圆心旋转,后者则是围绕着某条直径上下振动。相比之下,转镜式激光雷达的功耗更低,散热难度更低,因而也更容易拥有比较高的可靠性。
3.3.1 工作原理
与MEMS微振镜平动和扭转的形式不同,转镜是反射镜面围绕圆心不断旋转,从而实现激光的扫描。在转镜方案中,也存在一面扫描镜(一维转镜)和一纵一横两面扫描镜(二维转镜)两种技术路线。一维转镜线束与激光发生器数量一致,而二维转镜可以实现等效更多的线束,在集成难度和成本控制上存在优势。
简而言之,使用转镜折射光线实现激光在FOV区域内的覆盖,通常与线光源配合使用,形成FOV面的覆盖,也可以与振镜组合使用,配合点光源形成FOV面的覆盖;
想L9将搭载禾赛科技AT128转镜式激光雷达
3.3.2 优劣势分析
优势:转镜式激光雷达的激光发射和接收装置是固定的,所以即使有「旋转机构」,也可以把产品体积做小,进而降低成本。并且旋转机构只有反射镜,整体重量轻,电机轴承的负荷小,系统运行起来更稳定,寿命更长,是符合车规量产的优势条件。
劣势:因为有「旋转机构」这样的机械形式的存在,便不可避免地在长期运行之后,激光雷达的稳定性、准确度会受到影响。其次,一维式的扫描线数少,扫描角度不能到360度。
从应用看,具备车规级量产实力的Tier1供货商有法雷奥(Scala)、镭神智能(CH32),Innovusion(Falcon)。2017年,奥迪A8为全球首款量产的L3级别自动驾驶的乘用车,其搭载的激光雷达便是法雷奥和Ibeo联合研发的4线旋转扫描镜激光雷达。2020年,镭神智能自主研发的CH32面世,成为全球第二款获得车规级认证的转镜式激光雷达,目前已经规模化交付东风悦享量产前装车型生产。2022年,搭载Innovusion Falcon激光雷达的蔚来ET7上市,该款激光雷达为1550nm方案,等效300线数。从售价看,法雷奥Scala 2为900欧元(约6500元人民币),已经下降至车企可接受的价格范围。
奥迪A8上搭载的法雷奥Scala 1转镜式激光雷达
3.4 半固态-棱镜式激光雷达
无人机龙头厂商大疆孵化览沃科技(Livox)入局激光雷达,便是采用的棱镜式扫描方案,大疆利用其在无人机领域积累的电机精准调控技术及自动化产线,有信心克服棱镜轴承或衬套寿命的难题,也为其激光雷达技术构筑护城河。
大疆Livox 棱镜式激光雷达:Horiz(左) 与Horizon(右)
3.4.1 工作原理
棱镜式激光雷达也称为双楔形棱镜式激光雷达,内部包括两个楔形棱镜,激光在通过第一个楔形棱镜后发生一次偏转,通过第二个楔形棱镜后再一次发生偏转。控制两面棱镜的相对转速便可以控制激光束的扫描形态。与前面提到的扫描形式不同,棱镜激光雷达累积的扫描图案形状状若菊花,而并非一行一列的点云状态。这样的好处是只要相对速度控制得当,在同一位置长时间扫描几乎可以覆盖整个区域。
棱镜及点云扫描示意图
3.4.2 优劣势分析
优势:首先,该设计减少了激光发射和接收的线数以实现一帧之内更高的线数,也随之降低了对焦与标定的复杂度,因此生产效率得以大幅提升,并且相比于传统机械式激光雷达,棱镜式的成本有了大幅的下降。其次,只要扫描时间够久,就能得到精度极高的点云以及环境建模,分辨率几乎没有上限,且可达到近100%的视场覆盖率。
劣势:棱镜式激光雷达FOV相对较小,且视场中心的扫描点非常密集,雷达的视场边缘扫描点比较稀疏,在雷达启动的短时间内会有分辨率过低的问题。对于高速移动的汽车来说,显然不存在长时间扫描的情况,不过可以通过增加激光线束和功率实现更高的精度和更远的探测距离,但机械结构也相对更加复杂,体积让前两者更难以控制,存在轴承或衬套的磨损等风险。
从车规级应用来看,小鹏P5配备2颗大疆Livox车规级棱镜式激光雷达,另外大疆Livox也获得了一汽解放量产项目的定点 。针对单颗棱镜式中心区域点云密集。两侧点云相对稀疏的情况,小鹏P5选择在车前部署了2颗激光雷达,前方提高至 180度的超宽点云视野,提高应对近处车辆加塞、十字路口拐弯等复杂路况的通行能力。
鹏P5上搭载的大疆Livox 棱镜式激光雷达
3.5 固态-OPA激光雷达
针对车规级设备需要在连续振动、高低温、高湿高盐等环境下连续工作的特点,固态激光雷达成为了较为可行的发展方向。喜欢军事的朋友应该都听过军机、军舰上搭载的相控阵雷达,而OPA光学相控阵激光雷达便是运用了与之相似的原理,并把它搬到了车端。
3.5.1 工作原理
相控阵雷达发射的是电磁波,OPA(Optical Phase Array的简称,即光学相控阵)激光雷达发射的是光,而光和电磁波一样也表现出波的特性,所以原理上是一样的。波与波之间会产生干涉现象,通过控制相控阵雷达平面阵列各个阵元的电流相位,利用相位差可以让不同的位置的波源会产生干涉(类似的是两圈水波相互叠加后,有的方向会相互抵消,有的会相互增强),从而指向特定的方向,往复控制便得以实现扫描效果。
利用光的相干性质,通过人为控制相位差实现不同方向的光发射效果;
我们知道光和电磁波一样也表现出波的特性,因此同样可以利用相位差控制干涉让激光“转向”特定的角度,往复控制实现扫描效果。
OPA光学相控工作原理示意图
3.5.2 优劣势分析
优势:OPA激光雷达发射机采用纯固态器件,没有任何需要活动的机械结构,因此在耐久度上表现更出众;虽然省去机械扫描结构,但却能做到类似机械式的全景扫描,同时在体积上可以做得更小,量产后的成本有望大大降低。
劣势:OPA激光雷达对激光调试、信号处理的运算力要求很大,同时,它还要求阵列单元尺寸必须不大于半个波长,因此每个器件尺寸仅500nm左右,对材料和工艺的要求都极为苛刻,由于技术难度高,上游产业链不成熟,导致 OPA 方案短期内难以车规级量产,目前也很少有专注开发OPA激光雷达的Tier1供应商。
应用层面,目前暂无车规级量产案例,OPA方案的代表企业为Quanergy。2021年8月,Quanergy对其OPA固达态激光雷达S3系列完成驾驶实测演示。测试结果显示,S3系列固态激光雷达可以提供超过10万小时的平均无故障时间(MTBF),在全光照下实现100米的探测性能,大规模量产后的目标价格为500美元。
3.6 固态-FLASH激光雷达
由于结构简单,Flash闪光激光雷达是目前纯固态激光雷达最主流的技术方案。但是由于短时间内发射大面积的激光,因此在探测精度和探测距离上会受到较大的影响,主要用于较低速的无人驾驶车辆,例如无人外卖车、无人物流车等,对探测距离要求较低的自动驾驶解决方案中。
3.6.1 工作原理
Flash原本的意思为快闪。而Flash激光雷达的原理也是快闪,不像MEMS或OPA的方案会去进行扫描,而是短时间直接发射出一大片覆盖探测区域的激光,再以高度灵敏的接收器,来完成对环境周围图像的绘制。因此,Flash固态激光雷达属于非扫描式雷达,发射面阵光,是以2维或3维图像为重点输出内容的激光雷达。某种意义上,它有些类似于黑夜中的照相机,光源由自己主动发出。
Flash激光雷达的成像原理是发射大面积激光一次照亮整个场景,然后使用多个传感器接收检测和反射光。但最大的问题是,这种工作模式需要非常高的激光功率。在体积限制下,Flash激光雷达的功率密度不能很高。因此,Flash激光雷达目前的问题是,由于功率密度的限制,无法考虑三个参数:视场角、检测距离和分辨率,即如果检测距离较远,则需要牺牲视场角或分辨率;如果需要高分辨率,则需要牺牲视场角或检测距离。
Flash激光雷达采用面光源泛光成像,其发射的光线会散布在整个视场内,因此不需要折射就可以覆盖FOV区域了,难点在于如何提升其功率密度从而提升探测精度和距离,目前通常使用VCSEL光源组成二维矩阵形成面光源;
亮道智能的Flash激光雷达
3.6.2 优劣势分析
优点:FLASH激光雷达最大的优势在于可以一次性实现全局成像来完成探测,且成像速度快。体积小,易安装,易融入车的整体外观设计。设计简洁,元件极少,成本低。信号处理电路简单,消耗运算资源少,整体成本低。刷新频率可高达3MHz,是传统摄像头的10万倍,实时性好,因此易过车规。
缺点:不过FLASH激光单点面积比扫描型激光单点大,因此其功率密度较低,进而影响到探测精度和探测距离(低于50米)。要改善其性能,需要使用功率更大的激光器,或更先进的激光发射阵列,让发光单元按一定模式导通点亮,以取得扫描器的效果。
Ibeo FLASH激光雷达的接收模块
为了克服探测距离的限制,FLASH激光雷达的代表厂商Ibeo、LedderTech开始在激光收发模块进行创新。车规级激光雷达鼻祖Ibeo,则一步到位推出了单光子激光雷达,Ibeo称其为Focal Plane Array焦平面,实际也可归为FlASH激光雷达。2019年8月27日,长城汽车与德国激光雷达厂商Ibeo正式签署了激光雷达技术战略合作协议,三方合作的产品基础就是ibeonEXT Generic 4D Solid State LiDAR。从长远来看,FLASH激光雷达芯片化程度高,规模化量产后大概率能拉低成本,随着技术的发展,FLASH激光雷达有望成为主流的技术方案。 whaosoft aiot http://143ai.com
对这几款激光雷达优劣势进行了汇总:
4、激光光源
由于激光器发射的光线需要投射至整个FOV平面区域内,除了面光源可以直接发射整面光线外,点光源则需要做二维扫描覆盖整个FOV区域,线光源需要做一维扫描覆盖整个FOV区域。
其中点光源根据光源发射的形式又可以分为EEL(Edge-Emitting Laser边发射激光器)和VCSEL(Vertical-Cavity Surface-Emitting Laser垂直腔面发射激光器)两种,二者区别在于EEL激光平行于衬底表面发出(如图1),VCSEL激光垂直于衬底表面发出(如图2)。
其中VCSEL式易于进行芯片式阵列布置,通常使用此类光源进行阵列式布置形成线光源(一维阵列)或面光源(二维阵列),VCSEL光源剖面图与二维阵列光源芯片示意图如下
VCSEL剖面与二维阵列示意图
5、其它常见术语释义
测远能力: 一般指激光雷达对于10%低反射率目标物的最远探测距离。
最近测量距离:激光雷达能够输出可靠探测数据的最近距离。
测距盲区:从激光雷达外罩到最近测量距离之间的范围,这段距离内激光雷达无法获取有效的测量信号,无法对目标物信息进行反馈。
角度盲区:激光雷达视场角范围没有覆盖的区域,系统无法获取这些区域内的目标物信息。
角度分辨率:激光雷达相邻两个探测点之间的角度间隔,分为水平角度分辨率与垂直角度分辨率。相邻探测点之间角度间隔越小,对目标物的细节分辨能力越强。
测距精度:激光雷达对同一距离下的物体多次测试所得数据之间的一致程度,精度越高表示测量的随机误差越小。
测距准度:激光雷达探测得到距离数据与真值之间的差距,准度越高表示测量结果与真实数据符合程度越高。
点频:激光雷达每秒完成探测并获取的探测点的数目。
抗干扰:激光雷达对工作同一环境下、采用相同激光波段的其他激光雷达的干扰信号的抵抗能力,抗干扰能力越强说明在多台激光雷达共同工作的条件下产生的噪点率越低
功耗:激光雷达系统工作状态下所消耗的电功率。
激光雷达线数:一般指激光雷达垂直方向上的测量线的数量,对于一定的角度范围,线数越多代表角度分辨率越高,对目标物的细节分辨能力越强。
多传感器标定:将多传感器得到的各自局部空间坐标下的测量数据转换到一个统一的空间坐标系的过程。
可靠性:一般指产品可靠性,是组件、产品、系统在一定时间内、在一定条件下无故障地执行指定功能的能力或可能性。
安全性:产品在使用、储运、销售等过程中,保障人体健康和人身、财产安全免受伤害或损失的能力或可能性,包括功能安全、网络安全、激光安全等。
6、相关缩写
dToF:direct Time-of-Flight直接测量光的飞行时间;
iToF:indirect Time-of-Flight通过测量相位偏移来间接测量光的飞行时间;
PLD:脉冲激光二极管,一种激光雷达发光元件;
APD:雪崩光二极管,一种激光雷达感光元件;
SPAD:Single Photon Avalanche Diode单光子雪崩二极管,一种激光雷达感光元件;
SiPM:Silicon photomultiplier硅光电倍增管,一种激光雷达感光元件;
CMOS:Compound metal Oxided Semiconductor 复合金属氧化物半导体,一种摄像头感光元件;
CCD:Charge Coupled Device电荷耦合器件,一种摄像头感光元件;
CIS:CMOS image sensor互补金属氧化物半导体图像传感器;
OPA:Optical Phased Arrays 光学相控阵;
FPA:Focal Plane Array焦平面阵列;
WD:Wavelength Disperion波长色散;
MEMS:Micro-Electro-Mechanical System 微机电系统;
#3D视觉感知相关工作汇总
0)三维重建
3DFIRES: Few Image 3D REconstruction for Scenes with Hidden Surface
- Paper:https://arxiv.org/abs/2403.08768
BiTT: Bi-directional Texture Reconstruction of Interacting Two Hands from a Single Image
- Paper:https://arxiv.org/abs/2403.08262
Bayesian Diffusion Models for 3D Shape Reconstruction
- Paper:https://arxiv.org/abs/2403.06973
UFORecon: Generalizable Sparse-View Surface Reconstruction from Arbitrary and UnFavOrable Sets
- Paper:https://arxiv.org/abs/2403.05086
DITTO: Dual and Integrated Latent Topologies for Implicit 3D Reconstruction
- Paper:https://arxiv.org/abs/2403.05005
HDRFlow: Real-Time HDR Video Reconstruction with Large Motions
- Paper:https://arxiv.org/abs/2403.03447
G3DR: Generative 3D Reconstruction in ImageNet
- Paper:https://arxiv.org/abs/2403.00939
1)语义场景补全
Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
- Paper: https://arxiv.org/pdf/2306.15670.pdf
- Code: https://github.com/hustvl/Symphonies
PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness
- Paper: https://arxiv.org/pdf/2312.02158.pdf
- Code: https://github.com/astra-vision/PaSCo
2)Occupancy
SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction
- Paper: https://arxiv.org/pdf/2311.12754.pdf
- Code: https://github.com/huang-yh/SelfOcc
Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications
- Paper: https://arxiv.org/pdf/2311.17663.pdf
- Code: https://github.com/haomo-ai/Cam4DOcc
PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation
- Paper: https://arxiv.org/pdf/2306.10013.pdf
- Code: https://github.com/Robertwyq/PanoOcc
3)3D Object Detection
PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection
- Paper: https://arxiv.org/pdf/2312.08371.pdf
- Code: https://github.com/KuanchihHuang/PTT
VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection
- Code: https://github.com/skmhrk1209/VSRD
CaKDP: Category-aware Knowledge Distillation and Pruning Framework for Lightweight 3D Object Detection
- Code: https://github.com/zhnxjtu/CaKDP
CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors Object Detection from Multi-view Images
- Paper:https://arxiv.org/abs/2403.04198
- Code:https://github.com/SerCharles/CN-RMA
UniMODE: Unified Monocular 3D Object Detection
- Paper:https://arxiv.org/abs/2402.18573
Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors
- Paper:https://arxiv.org/abs/2403.06093
- Code:https://github.com/nullmax-vision/QAF2D
SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection
- Paper:https://arxiv.org/abs/2403.05817
- Code:https://github.com/zhanggang001/HEDNet
RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features
- Paper:https://arxiv.org/pdf/2403.05061
4)Stereo
MoCha-Stereo: Motif Channel Attention Network for Stereo Matching
- Code: https://github.com/ZYangChen/MoCha-Stereo
Learning Intra-view and Cross-view Geometric Knowledge for Stereo Matching
- Paper:https://arxiv.org/abs/2402.19270
- Code:https://github.com/DFSDDDDD1199/ICGNet
Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching
- Paper:https://arxiv.org/abs/2403.00486
- Code:https://github.com/Windsrain/Selective-Stereo
Robust Synthetic-to-Real Transfer for Stereo Matching
- Paper:https://arxiv.org/abs/2403.07705
5)SLAM与导航
SNI-SLAM: SemanticNeurallmplicit SLAM
- Paper: https://arxiv.org/pdf/2311.11016.pdf
CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition
- Paper:https://arxiv.org/abs/2402.19231
- Code:https://github.com/Lu-Feng/CricaVPR
MemoNav: Working Memory Model for Visual Navigation
- Paper:https://arxiv.org/abs/2402.19161
6)Point Cloud
Point Transformer V3: Simpler, Faster, Stronger
- Paper: https://arxiv.org/pdf/2312.10035.pdf
- Code: https://github.com/Pointcept/PointTransformerV3
Rethinking Few-shot 3D Point Cloud Semantic Segmentation
- Paper: https://arxiv.org/pdf/2403.00592.pdf
- Code: https://github.com/ZhaochongAn/COSeg
PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation
- Code: https://github.com/JinfengX/PointCloudPDF
Hide in Thicket: Generating Imperceptible and Rational Adversarial Perturbations on 3D Point Clouds
- Paper:https://arxiv.org/abs/2403.05247
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis
- Paper:https://arxiv.org/abs/2403.01439
Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching
- Paper:https://arxiv.org/abs/2402.17372
7)深度估计
Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving
- Paper:https://arxiv.org/abs/2403.07535
8)3D理解
GroupContrast: Semantic-aware Self-supervised Representation Learning for 3D Understanding
- Paper:https://arxiv.org/abs/2403.09639
TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding
- Paper:https://arxiv.org/abs/2402.18490
9)6D Pose
SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation
- Paper:https://arxiv.org/abs/2311.15707
MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation
- Paper:https://arxiv.org/abs/2403.08019
FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation
- Paper:https://arxiv.org/abs/2403.03221
10)Nerf与Gaussian Splatting
Dynamic LiDAR Re-simulation using Compositional Neural Fields
- Paper: https://arxiv.org/pdf/2312.05247.pdf
- Code: https://github.com/prs-eth/Dynamic-LiDAR-Resimulation
GSNeRF: Generalizable Semantic Neural Radiance Fields with Enhanced 3D Scene Understanding
- Paper:https://arxiv.org/abs/2403.03608
NARUTO: Neural Active Reconstruction from Uncertain Target Observations
- Paper:https://arxiv.org/abs/2402.18771
DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization
- Paper:https://arxiv.org/abs/2403.06912
S-DyRF: Reference-Based Stylized Radiance Fields for Dynamic Scenes
- Paper:https://arxiv.org/pdf/2403.06205
DaReNeRF: Direction-aware Representation for Dynamic Scenes
- Paper:https://arxiv.org/pdf/2403.02265
Is Vanilla MLP in Neural Radiance Field Enough for Few-shot View Synthesis?
- Paper:https://arxiv.org/abs/2403.06092
NRDF: Neural Riemannian Distance Fields for Learning Articulated Pose Priors
- Paper:https://arxiv.org/abs/2403.03122
3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
- Paper:https://arxiv.org/abs/2403.01444
Neural Video Compression with Feature Modulation
- Paper:https://arxiv.org/abs/2402.17414
11)其它
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior
- Paper:https://arxiv.org/abs/2403.09140
FSC: Few-point Shape Completion
- Paper:https://arxiv.org/abs/2403.07359
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models
- Paper:https://arxiv.org/abs/2403.01807
DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior
- Paper:https://arxiv.org/abs/2312.06439
#Gaussian Splatting SLAM:单目和RGBD重建双SOTA
我们首次将3D高斯泼溅应用于使用单目或RGB-D相机的增量3D重建。我们的SLAM方法以每秒3帧的速度实时运行,使用高斯作为唯一的3D表示,统一了所需的表示,以实现准确、高效的跟踪、建图和高质量渲染。
我们需要一些创新来从相机连续重建具有高保真度的3D场景。首先,为了超越最初的3DGS算法,该算法需要来自离线运动结构(SfM)系统的精确位姿,我们使用针对3D高斯的直接优化来制定3DGS的相机跟踪,并表明这能够实现快速而稳健的跟踪,并具有广泛的收敛范围。其次,通过利用高斯的显式性质,我们引入了几何验证和正则化来处理增量三维密集重建中出现的模糊性。最后,我们介绍了一个完整的SLAM系统,它不仅在新的视图合成和轨迹估计方面取得了最先进的结果,而且还重建了微小甚至透明的物体。
总结来说,我们工作的主要贡献如下:
- 第一个使用3DGS作为唯一底层场景表示的近实时SLAM系统;
- SLAM框架内的新技术,包括用于相机姿态估计、高斯形状正则化和几何验证的解析雅可比
- 对单目和RGB-D设置的各种数据集进行了广泛的评估,展示了具有竞争力的性能,尤其是在真实世界的场景中。
详解Gaussian Splatting SLAM
Gaussian Splatting
我们的SLAM表示是3DGS,用一组各向异性高斯建模场景。每个高斯都包含光学特性:颜色和不透明度。对于连续三维表示,在世界坐标中定义的均值和协方差表示高斯的位置及其椭球形状。为了简单和快速,在我们的工作中,我们省略了表示与视图相关的辐射的球面谐波。由于3DGS使用体积渲染,因此不需要显式提取曲面。相反,通过泼溅和混合N个高斯,可以合成像素颜色:
3DGS进一步进行光栅化,在高斯上迭代,而不是沿着相机光线行进,因此,在渲染过程中忽略自由空间。在光栅化过程中,α的贡献通过高斯函数衰减,该函数基于3D高斯形成的2D高斯。世界坐标中的3D高斯通过投影变换与图像平面上的2D高斯相关:
相机位姿优化
为了实现精确的跟踪,我们通常需要每帧至少50次梯度下降迭代。这一要求强调了具有计算高效的视图合成和梯度计算的表示的必要性,使3D表示的选择成为设计SLAM系统的关键部分。
为了避免自动微分的开销,3DGS使用CUDA实现光栅化,其中所有参数的导数都是显式计算的。由于光栅化对性能至关重要,我们同样明确地推导出了相机雅可比矩阵。
据我们所知,我们提供了SE(3)相机姿态相对于EWA splatting和3DGS中使用的3D高斯的第一个解析雅可比。这开启了3DGS在SLAM之外的新应用。
我们使用李代数来导出最小雅可比矩阵,确保雅可比矩阵的维数与自由度匹配,从而消除任何冗余计算。方程的项(2)关于相机姿态是可微分的,使用链式规则:
SLAM
在本节中,我们将介绍完整SLAM框架的详细信息。系统概述如图2所示。
Tracking
在跟踪中,仅优化当前摄影机位姿,而不更新地图表示。在单目情况下,我们将以下光度残留降至最低:
Keyframing
由于使用视频流中的所有图像来在线联合优化高斯和相机姿势是不可行的,因此我们保留了一个由基于帧间共视性精心选择的关键帧组成的小窗口。理想的关键帧管理将选择观察同一区域的非冗余关键帧,跨越宽基线,以提供更好的多视图约束。
选择和管理:基于我们简单而有效的标准,检查每个被跟踪的帧的关键帧注册。我们通过测量当前帧i和最后一个关键帧j之间观察到的高斯的并集上的交点来测量共视性。如果共视性下降到阈值以下,或者如果相对平移相对于中间深度较大,帧i被注册为关键帧。为了提高效率,我们按照DSO的关键帧管理启发法,在当前窗口Wk中只保留少量关键帧。主要区别在于,如果与最新关键帧的重叠系数降至阈值以下,则会从当前窗口中移除关键帧。
高斯共视性:对共视性的准确估计简化了关键帧的选择和管理。3DGS尊重可见性排序,因为3D高斯是沿着相机光线排序的。由于遮挡是通过设计处理的,因此这种特性对于共视性估计是可取的。如果在光栅化中使用,并且光线的累积α尚未达到0.5,则高斯被标记为从视图可见。这使得我们估计的共视性能够在不需要额外启发式的情况下处理遮挡。
高斯插入和修剪:在每个关键帧,都会将新的高斯插入到场景中,以捕捉新可见的场景元素并细化精细细节。当深度测量可用时,通过反向投影深度来初始化高斯平均值μW。在单目的情况下,我们在当前帧处渲染深度。对于具有深度估计的像素,μW是在那些具有低方差的深度周围初始化的;对于没有深度估计的像素,我们在具有高方差的渲染图像的中值深度周围初始化μW。
Mapping
建图的目的是保持连贯的3D结构,并优化新插入的高斯。在映射过程中,Wk中的关键帧用于重建当前可见的区域。此外,每次迭代都会选择两个随机的过去关键帧Wr,以避免忘记全局地图。3DGS的光栅化在观看光线方向上对高斯没有任何约束,即使是在深度观察的情况下也是如此。当提供足够的仔细选择的视点时(例如在新颖的视点合成情况下),这不是问题;然而,在连续SLAM中,这会导致许多伪影,使得跟踪具有挑战性。因此,我们引入了各向同性正则化:
实验结果
实验结果和可视化如下:
结论
我们提出了第一种使用3D高斯作为SLAM表示的SLAM方法。通过高效的体渲染,我们的系统显著提高了实时SLAM系统可以捕捉的目标材料的保真度和多样性。我们的系统在单目和RGB-D案例的基准测试中都实现了最先进的性能。未来研究的有趣方向是集成循环闭合以处理大规模场景,并提取几何体,如高斯不明确表示曲面的曲面法线。
#自动驾驶~基于深度学习の预测和规划融合
Rethinking Integration of Prediction and Planning in Deep Learning-Based Automated Driving Systems: A Review
原文链接:https://arxiv.org/pdf/2308.05731.pdf
模块化自动驾驶系统通常将预测和规划作为独立任务序列来处理。虽然这解释了周围交通对本车的影响,但它无法预测交通参与者对本车行为的响应。最近的研究表明,在一个相互依赖的联合步骤中整合预测和规划对实现安全、高效、舒适的驾驶是必要的。各种模型实现这样的集成系统时,缺乏一个全面的概述和理论理解,我们系统的回顾了基于深度学习的预测、规划以及预测和规划融合的算法模型,从模型结构和设计到行为等各方面因素和关联性。此外,我们还讨论了不同集成方法的含义、优势和局限性。通过指出研究差异,描述相关未来挑战,重点关注研究领域的趋势,我们确定了未来有希望的研究方向。
关键字:自动驾驶,运动预测,运动规划,深度学习
自动驾驶(AD)通常分为感知,预测,规划和控制子任务,以确保乘坐安全,高效,以及舒适度。传统的、模块化的系统(参见图1)将预测和规划作为单独的任务,然而这种顺序存在相干反应并且不能表征本车和周围交通参与者在交通场景下的连续相互影响,因此预测和规划不应当作独立的顺序执行问题而对待。理想情况下,所有相关车辆都要注意彼此的情况选择未来的运动,在任何时候允许复杂的交互。这种联合建模可以反映交通参与者如何持续地对彼此的行为做出反应,以及他们如何创建相互的“假设场景”来实现类似人类的,安全、舒适驾驶。我们称这种方法为融合预测与规划(IPP)。
研究范围
本文中,我们将回顾预测和规划如何融合集成到同一个模块。基于深度学习的方案利用数据可以在高纬度空间找到更合适的解决方法,而且近期以及在一些领域有了重大进展。本文我们主要集中在基于深度学习的方法。我们的工作集中于交通参与者之间直接或间接的交互场景,此外,我们排除了行人运动预测,与车辆相比,行人是更弱的动态约束条件并且也已经被充分的综述研究过。
组织结构
在研究融合预测和规划之前,本文首先分别回顾了基于深度学习的预测和规划任务。文章结构如下:
- 我们首先回顾了基于深度学习的预测、规划和IPP方案的SOTA方法和基准。
- 我们提出了一种融合预测和规划的分类方法,从模型结构和系统设计到行为等方面进行分类。
- 我们调研和分析了这些类别在安全性和鲁棒性方面的关联和影响。
- 我们研究了这些SOTA研究之间的差异并指出了未来更有希望的方法和方向。
#自动驾驶系统
本章主要介绍必要的术语和简洁定义预测和规划。
结构
模块化子系统如图1a所示,人为的设计各个模块之间的接口,增加了可解释性,如果所有接口都是可微分的,模块化方法也是可以端到端训练的。
端到端方案使用单一神经网络模型,这种方法不会在模块接口间损失信息,缺点是缺少可解释性并且会引起低样本效率。
可解释的端到端方案缓解以上两种方案缺点,这些模型会增加辅助任务,并且这些任务不传播到下一层,而是直接用中间的隐藏层进行连接。
任务定义
这一节主要是一些字符说明和表达式说明,在此不再展示,大家直接看原论文即可,后续使用的字符会在使用时进行简要说明。
#预测
自动驾驶中,预测是理解驾驶场景如何发展并对后续规划模块有何影响。3.1讨论了不同场景下个体与全局的交互表示,3.2秒回顾了哪些神经网络设计用于交互建模并提取描述性特征。第3.3节将说明如何实现将提取的特征映射到轨迹预测中以及多模态是如何建模的
场景表示
表示一个场景意味着提取相关子集所有可用的信息,并将其转换成一种格式后续处理步骤可以利用的。在自动驾驶车辆轨迹预测上下文中,交通参与者状态X(有上横杠)和地图I都是非常重要的信息表示,在基于深度学习方法中,有两个重要的表示方法:栅格化和稀疏表示,如图2所示。
栅格化使用稠密的固定像素的网格结构进行表示,往往有多个通道。详见参考文献[54]-[61]。DESIRE [8]是栅格化的早期方法,为了融合本车的多传感器输入信息,使用BEV地图。BEV映射允许结合不同的传感方式,建立一个所有车辆的通用坐标系统。
稀疏表示,AD决策取决于几个关键对象而不是所有可用的场景信息[76]。因此,稀疏表示的思想是去除冗余和来自场景表示的不相关信息。图是用于预测的最常用稀疏表示,也被归类到矢量和折线表示。在交通图中,节点表示编码对象并且边缘模拟了它们之间的关系[63]。隐藏的节点特征包含了对象种类和向下文信息。
一些方法结合栅格化和稀疏表示[39],[95]通过对场景的不同方面进行编码表示。此外,一些作品使用体素表示它们的稀疏度不同[96],[97]。MultiPath[59]和MultiPath++[37]非常适合比较,因为它们是相似的模型,其主要区别是参考在于输入表示。他们的结果显示从栅格化到稀疏化可以提高性能。该领域的整体发展证实了这一点趋势,如图3所示。时间轴按时间顺序排列从理论上描述了有效的预测方法,并展示了在过去的几年中转向稀疏表示。
坐标系,具有固定视角的全局坐标系统对于整个场景[6],[44],[98],[99]而言都是非常高效的。
从表示角度分析,不同的深度学习方案有不同的处理方式,网格化表示适用于CNN类别模型,稀疏化表示适合GNN类模型、注意力机制以及transformer。
交互建模
交通场景中,个体之间的交互建模是预测的关键环节,与其他交通要个体的交互避免了碰撞以及使得车流更加顺滑,进一步约束可行驶区域。
RNNs,一些早期的预测模型,如DESIRE[8]或[39]将rnn与如pooling或者注意力等聚合算子结合起来。
CNNs,这一类使用2D卷积隐含的获取kernel之间的联系,与基于序列处理的方法相比,重要性更多的分配给空间交互。
GNNs和注意力机制,通过图卷积算子或者软注意力机制聚合多中个体之间的信息来表述单个体之间的交互。
Transformers,在过去几年对预测有很大影响。因为跟踪车辆位置式最时间变化的,预测任务的输入包括空间和时间信息,交互建模要求理解车辆的空间交互额和时序动态。尤其是Transformers结构出现以来,很容易实现通过设计来决定如何处理空间和时间。空间和时间数据可以存储在不同的维度输入张量中,然后在单个维度内或跨不同维度执行注意力机制。
图3中揭示场景表示下不同的交互模型的演进,CNN模型和RNN模型在网格场景表示早期工作中比较常见,GNN模型,注意力机制和transformer模型在稀疏化表示中应用更多。
轨迹解码
预测的最后一步是生成轨迹。在基于深度学习的方法中,通过对捕捉到的潜在特征解码实现。我们聚焦于轨迹解码的两个方面:解码规则和多模态建模。
解码规则,分为三类one-shot, two-shot, and n-shot,如图4所示。直接预测未来轨迹点更为常见。
one-shot方法又分为轨迹回归解码和锚点轨迹分类。轨迹回归直接使用神经网络将隐藏层特征解码为轨迹,典型的是MLP。尤其是基于transformer的结构直接进行轨迹回归,如图3所示。锚点轨迹分类通过预先设定的锚点轨迹作为先验知识进行分类。确定锚定轨迹可以确保该预测的可行性和允许施加更强的运动学约束。然而,罕见的轨迹可能不包括在锚点中,该方法缺乏灵活性。
two-shot方法包括端点和初始轨迹和改进策略的完整方法,n-shot要么是初始轨迹法,要么是自回归规划。
多模态,观察到的SV的意图是未知的,未来的行为本质上是不确定和多样式。可以区分为两种技术,Ppred可以用离散轨迹集来估计或用连续分布表示。离散轨迹可以从中间描述抽样或者模型设计时获取。连续分布。不同于离散轨迹集,它可以有利于直接使用连续分布作为代价函数用于规划。
基线
测试基线比较简单易懂,许多数据集用于训练和测试。通过对比SV的预测轨迹和测试集中每个时刻的真实轨迹来进行评估。对于解释多模态,SV对象的不确定意图,评估基线采用赢家通吃的评估策略,即模型预测几个固定的轨迹输出比如6个或10个,然后评估最好的一个,包括可选的概率。
#规划
规划任务是为本车找到一个具有安全性、舒适性、运动可行性的轨迹YEV,并且是基于观察值X EV和X SV以及额外的上下文I和可选的YSV(Y有横杠)。在这一章,在4.1和4.2节全面的回顾输入和输出表示,X EV , X SV , and I 。在4.4接对现有工作进行分类和讨论现有常用范式之前,4.3节阐述目标状态,最后我们介绍了现存的benchmarks。
输入表述
我们将输入表述分为科技史的中间描述和隐藏层特征。可解释的中间表示通常是用于模块化ads(参见第2.1节)。而隐藏层特征,对于直接映射传感器的E2E 自动驾驶(参见图1)[9]、[126]、[181],PS输入X EV, X SV和I由潜在特征表示。使用学习隐藏层中间表征的好处是,不需要人工的设计不同模块之间的接口。隐藏层特征表示的主要缺点是缺乏可解释性。如果失败,评估系统哪个部分造成的误差是极端的困难。这使得纯E2E系统的调优和调试成为可能条款特别难。可解释的端到端系统寻求通过产生额外的中间体来弥补这一点表示[70]。与模块化技术栈相反,这些方法不使用可解释的中间输出。它们只用于额外的监督模型自省。图3的时间线显示,与隐藏层输入特征相比,可解释的输入表示变得越来越流行。
输出表述
规划模块的输出表述是一系列未来的状态或者控制动作。未来状态包括2D位置和规划的轨迹航向,这些信息传递给下游控制器。轨迹表示有很好的可解释性。此外,它与当前和预测的占用特征和BEVmap等都在同一个笛卡尔空间内,可以很方便的用于检测碰撞、交通法规等问题。不过,实际的驾驶性能还取决于下游控制器。未来控制动作是规划的另一种输出表示,E2E自动驾驶多采用这种方式。这该方法可提高运动的可行性和舒适性,因为它直接关系到行动的大小。但是,产生的行为取决于被控制的对象车辆个体动力学模型[34],[183]。因此,泛化到其他车辆的能力非常受限。图3描述了端到端自动驾驶的规划演进过程,近年来轨迹输出越来越流行。
目标调整
自动驾驶的目标是安全行驶到目的地,因此,目标导向是决定了规划算法适应性的主要因素。导航系统的车道级别的路线信息可以输入给规划器,通过地图的车道信息,得到一组稀疏的目标信息,沿着这组信息,每一步都有最近的位置信息提供给规划器,相对信息可以方便的从GPS导航系统获取。对目标信息如何送入规划算法,我们主要定义了四个类别:input features, separate submodules, routing cost, and route attention。
input features简单直接的合并目标信息并且已经被广泛使用,存在不同的实现方法。如果地图信息被标记为on-route或off-route,这一信息可以在栅格地图中作为分离的语义信息。
Separate submodules仅用于高级别命令,作为特定命令之间的子模块。
Hand-crafted routing cost,通过人工制定的规则重新优化规划轨迹。
Route attention,强制规划模型集中于预设的路线,
图3显示早期的模型并未通过目标而训练规划模块,后来,子模块和输入特征站主导地位,近期的模型引入了规则注意力。
规划算法
回顾公式5,我们将规划定义为一个从观测输入X EV , X SV , and I到估计Y EV的一个函数f,接下来,我们聚焦规划函数f。根据预期生成器,我们将规划认为区分为三种范式:损失函数优化,退化和混合规划。
测试基准
规划的评估方法包括开环评估和闭环仿真,开环仿真与预测任务相似,将控制器的输出与专家规划进行对比,然而近年来的研究表明开环评估与实际的驾驶表现性能关联性不大。闭环仿真是用规划器控制本车,更接近真实世界。Carla 或 nuPlan两个数据集都是基于SV的驾驶模式。
#预测和规划融合方案
接下来着重关注PS中哪些设计决策在行为交互场景中有影响。尤其是探讨PS如何考虑SV(Surrounding Vehicle)的预期行为因素。尤其是分析PS在SV的将来非预期行为下的规划,分析SV对EV的影响。图6描述了不同方式下,预测和规划组件如何构建PS。接下来,我们从当前工作的分类开始介绍(5.1),接下来讨论模块融合系统中设计选择产生的交互行为的意义(5.2),5.3节讨论了模块化融合系统中安全和应急概念。5.4讨论了这些分类的可能组合,如图5所示。
融合策略
本章主要讨论图6中的三种策略。
Monolithic E2E ,统一的端到端策略由单一的规划器组成,因此,SV的未来行为和它们之间的相互作用,以及SV和EV之间的关系没有明确建模。这种方法可以更好地再现专家的驾驶决策,但有更高的迅雷数据需求,主要的缺点是它们的黑盒子性质,这使得模型自省和安全验证非常困难。
Interpretable E2E,可解释的端到端规划框架将预测作为辅助的学习任务,作为一个明确的模型输出,预测任务与规划任务一起被训练。一般情况下,两个任务共享骨干编码特征,输出头分别解码生成对应的输出表示。与单一的端到端规划相比,显式预测增加了可解释性并促进了自省。尽管如此,两种PS设计都依赖于隐含的预测在潜在的空间中进行规划任务并没有安全性可以提供保证。因此,我们归因于增加由此产生的驾驶性能(碰撞率)[65]对其规范效果的额外监督。
Manual integration,人工融合方案意味着不同的任务使用不同的子模块,这两个任务的相互作用是基于专业知识手工设计的。被广泛采用的方法是顺序融合法,预测模块的输出传递给规划模块。由于该设计无法反映EV的规划对SVs的影响,所以其他作品首先推断模块化规划器来生成候选规划。随后,预测以这些候选项为条件,然后用于在候选项中选择EV的规划[130],[240]。
接下来介绍了PRECOG [69],PiP [130], [241] ,DSDNet [72] ,P3 [70], LookOut [73], and MP3 [74],SafetyNet [80], UniAD [132],FusionAD等一系列作品的方案。与其他融合原则相比,人工融合需要更多的工程工作,但以一种有意义的方式结合先验知识约束了融合方案的安全性。通常,人工集成的PSs比端到端系统提供了更高的可解释性和更安全的方案[81],[247]。图3中的时间轴显示了早期的工作主要依赖于单片E2E设计中的隐含预测。从ChauffeurNet[61]和PRECOG[69]开始,明确的预测变得更加流行。最近,端到端可微模块组件的人工集成引起了广泛关注[132],[182]。
本车与其他个体之间的联系
在前一节中,我们从系统架构的角度回顾了集成融合的原则。在下文中,我们将从不同的角度分析人工集成类别,即预期的本车和其他个体间关系。这在高度交互的场景中尤为重要,因为汽车需要根据对周围智能体的观察和预期行为来做出驾驶决策。然而,正如[5]所指出的,汽车也需要意识到它会影响他人的行为。
例如,在图7的示例中,汽车的规划可以也会影响SV的行为,例如通过接近交叉口速度加快会导致SV减速并向EV屈服。[5]引入以下四大类:机器人主导规划、人主导规划,共同主导规划,联合规划。在这种情况下,人是指周围的交通,机器人指的是自动驾驶汽车。下面,我们简要描述这些类别并讨论现有的工作。
Robot leader planning,根据当前状态推断EV规划,并以此为条件对整个环境进行预测。这可能导致攻击性驾驶行为。例如在图7的示例中,EV将推断出当它遵循快速推进的规划时,观察到的SV将屈服于它以防止碰撞。
Human leader planning与机器人主导规划是相反的,该规划基于SVs的预测行为。它没有模拟EV的规划对SVs的影响,这可能导致不自信的行为[5]。在未受保护的右转示例中(参见图7),EV试图在没有意识到它会影响两种预测的SV行为的情况下找到适合的方案。因此,它将倾向于较慢的规划。
Joint planning,联合规划描述了能够意识到车辆(包括自我)相互作用的系统。通过对所有智能体的全局优化得到汽车的规划。因此,在存在最优结果的假设下,IPP系统确定性地近似于一个联合目标[248]。例如,如果图7中的EV在接近SV之前挤入,这可能是相对于合理的全局目标而言最优的。尽管如此,并不能保证SV的行为是相应的,不会加速。因此,[5]证明了这是如何导致致命错误的。
Co-leader planning,共同主导规划模拟了SVs潜在未来行为的影响以及他们对潜在自我轨迹的反应[5],[249],[250]。与联合规划类别相反,周围个体的行为不被认为是确定性的。因此,EV必须在规划步骤中通过制定应急规划来考虑这种不确定性,也就是说,它必须为多种未来结果做好准备,并能够做出相应的反应。这种行为被称为被动偶然性。
图3显示,没有观察到任何一种范式的明显趋势。这表明,目前尚不清楚这四个理论概念中哪个优于其他理论概念,以及如何在系统架构的设计中实现它。这可能与缺乏全面的经验基准有关。
安全性和应急能力
上面讨论的自我-其他个体关系类别强调了考虑多种潜在的未来情景对安全和应急规划至关重要。在下文中,我们将讨论如何将其合并到我们定义为规划函数f = h(g(X EV, X SV,I)的一部分的成本函数组件h中(参见第4.4节)。我们形成了以下三组关于安全和应急的现有方法:边缘预测规划、最坏情况规划和应急规划。它们在图7中作了简要概述。
Planning with marginalized predictions,带边缘预测的规划描述了IPP系统,它不能明确区分多个未来情景N。这意味着与未来结果Y (j)SV相比,预测Y SV被边缘化。如图7所示,成本函数需要权衡不太可能但危险的场景(如碰撞)和非常可能的低成本场景。这对安全至关重要,因为规划者需要谨慎,尤其是那些不太可能发生但危险的事件。
Worst-case planning,最坏情况规划是指IPP系统意识到存在多种未来结果Y (j) SV。在这个类别中,所有情景都被认为是同等相关的,即不考虑概率能力P(Y (j)SV)。相反,每个提案都是根据最坏的情况进行评估的。这种模式强烈关注避碰,并可能导致过度谨慎的行为,如图7所示。这样的规划者没有意识到,根据形势的实际发展,会发生重新规划。
Contingency planning,应急规划是对IPP系统的最高要求。它通过考虑不同的未来情景Y (j) SV及其概率P(Y (j) SV),为场景的未知未来发展做好准备。由此产生的规划可以对冲最坏情况的风险,同时实现预期的进展。基于成本函数的规划范式和混合规划范式都具有这些属性。
可行的组合
在前面的章节中,我们描述了三种分类预测和规划集成融合的方法,即(1)集成原则,(2)安全性和偶然性,以及(3)自我-其他个体关系。下面,我们将讨论这三个维度的可能组合。图5显示了概述。我们的关键见解是,我们所描述的类别描述了不同层次上IPP方法之间的差异。虽然集成原则侧重于高级系统体系结构,但自我到代理的关系主要基于该体系结构应该展示的交互行为。安全性和偶然性的考虑建立在成本函数的基础上,即对方案选择的具体设计选择。下面,我们将重点介绍这些类别之间的关联。需要强调,下面的分类是基于架构的,而不是基于结果行为的。在评估过程中,模型很可能表现出多个类别的属性。因此,交互场景中的基准测试是不可避免的,以确定模型是否确实显示了预期的行为(参见第4.5节)。
我们认为机器人领导者范式可以与所有三个成本函数相结合。考虑一个简单的机器人主导模型,它首先识别潜在的自我规划,然后预测基于每个规划的sv的未来行为。汽车方案的最终选择可以基于属于这三类中的每一类的成本函数。然而,现有的作品使用专门的成本函数,不遵循我们在第5.3节、[95]、[129]、[130]、[240]中概述的结构。我们想强调的是,系统地将机器人主导架构与相应的成本函数相结合可能是未来研究的一个有前途的方向。特别是偶然或最坏情况成本函数可以缓解机器人领导者规划相关的固有问题,即依赖于SVs以潜在的不合理方式为EV的利益做出反应。
#挑战
基于对基于深度学习的预测和规划以及在ADS中的集成融合概述,我们认为未来研究的四个核心挑战为:大规模测试、系统设计、综合基准测试、训练方法。
大规模测试,在将自动驾驶系统部署到实际应用之前,需要进行大规模测试以验证其有效性。这是的仿真非常必要。为了涵盖潜在驱动场景的长尾分布,我们需要采用有效的方法来生成和检索罕见但潜在关键的场景。特别是评估对抗性鲁棒性可以帮助识别关于分布移位和分布外边界的泛化的局限性。
系统设计,采用传统的、由感知、预测、规划和控制组成的严格顺序系统仍然是一种流行的选择。我们的调查表明,这种方法无法满足对驾驶系统的要求。替代方法以一种允许对潜在的自我规划进行调节预测的方式将预测和规划集成在一起。尽管如此,目前仍不清楚哪种集成架构最有效。特别是在日益流行的可解释端到端系统领域,如何将预测和规划结合起来还不清楚。
全面的基准测试。我们讨论了预测和规划整合的不同方面。然而,没有一个全面的经验基准再现和分析它们的优缺点。这样的概述将有助于更好地理解不同的自我-其他个体关系和安全/应急范式的影响。这需要在现实和高度互动的场景中进行模拟,并为周围的车辆和富有表现力的交互指标提供现实的驾驶员模型。
训练方法,当基于学习的方法应用于安全关键领域(如自动驾驶)时,鲁棒性至关重要。安全关键场景[256]在训练数据中很少发生,例如在电动汽车前面发生碰撞。但为了确保自动驾驶车辆的安全行为,关键是该系统也能适应这些情况。确保强大的泛化和保证安全性是一个开放的挑战。