公众号:算法一只狗

一直以来,深度学习模型对于研究者来说是一种“黑盒”模型,我们一般很难分析模型的到底学习到了什么东西,只知道它能够应用于特定的领域。

对比于自动驾驶领域来看,一个黑盒状态的模型,是很难让人放心去使用的,这是因为如果汽车出现事故后往往难以解释,且排查难度较大。因此,在自动驾驶中获得一个能够让人解释清楚的模型尤为重要。

这不,创业公司Wayve使用了LLM模型,构造出了LINGO-1模型,这是一种能够解释汽车动作的工具。它结合了视觉、语言和动作,在汽车形势过程中给出接下来的驾驶决策行为。

起猛了!自动驾驶可以聊天了_自动驾驶

我们知道,目前的大模型大多利用了互联网上的数据进行训练,从而做到近似于人类的回答。这些模型已经改变了深度学习和生成式人工智能,它们现在被用来自动化许多任务,比如作为图像分类、文本到图像检索和视觉问答等任务。目前多模态的模型也是重点领域,因此Wayve把LLM模型加入到自动驾驶领域中,探索出视觉-语言-动作模型 (VLAM)。

目前,还没有研究在在自动驾驶中引入自然语言。作为一种新模态,自然语言可以帮助自动驾驶解释汽车行驶中场景的因果关系,并加快训练和实现对环境的泛化。

除了能够让LLM对驾驶模型进行解释外,它还能够在驾驶过程中与乘客进行互动,用户可以询问自动驾驶车辆正在执行的任务以及原因。

这种模型的优点在于:当突破人工智能的极限时,视觉-语言-动作模型可能会产生巨大的影响,因为语言提供了一种新的模式来增强我们解释和训练基础驾驶模型的方式。

LINGO-1针对驾驶时的解析

在构建模型中,主要收集英国各地驾驶时评论收集的图像、语言和动作数据。这种解析的评论效果,有点像一我们在驾校学习开车时,教练指导我们开车的场景,用来帮助学员如何开车。

比如会针对不同的驾驶场景,描述其开车时的状态:

  • 因前车减速或红绿灯变化
  • 改变车道以遵循路线
  • 加速到极限速度
  • 注意到其他车辆驶上道路或停在十字路口
  • 接近危险,例如环岛和让路标志
  • 停放的汽车、交通信号灯或学校
  • 其他道路使用者正在采取的行动,例如改变车道或超越停放的车辆
  • 在斑马线等待或在自行车道上从汽车后面过来的骑自行车者和行人

当这些自然语言和图像、驾驶动作在时间上同步的时候,就可以获得丰富的视觉-语言-动作数据集来训练用于不同任务的模型。

从模型架构上看,LINGO-1在各种视觉和语言数据集上训练了开源模型。它可以通过简单的提示更改来执行许多任务。这使得提问者能够向 LINGO-1 提示有关场景理解和推理场景中影响驾驶决策的主要因果因素的问题。换句话说,LINGO-1可以提供驾驶动作和推理的描述。

起猛了!自动驾驶可以聊天了_自动驾驶_02

LINGO-1 可以生成连续的评论,解释驾驶行为背后的原因。这可以帮助我们用自然语言理解模型正在关注什么以及它在做什么。

举个例子,在在下面视频中,LINGO-1 描述了它超越一辆停放的汽车时所采取的行动。

  • LINGO-1:由于交通缓慢,我正在慢慢靠近。
  • LINGO-1:我正在超越一辆停在路边的车辆。
  • LINGO-1:我现在正在加速,因为前面的路已经畅通无阻了。

起猛了!自动驾驶可以聊天了_模态_03

当汽车接近斑马线时:

  • LINGO-1:我保持速度;道路仍然畅通。
  • LINGO-1:我现在正在减速、制动,然后停下来。
  • LINGO-1: 剩下的停在斑马线上。
  • LINGO-1:我现在正在从停止位置加速。
  • LINGO-1:由于道路畅通,我正在加速。

起猛了!自动驾驶可以聊天了_机器学习_04

在十字路口左转时:

  • LINGO-1:我保持不动,因为前车也停了下来。
  • LINGO-1:我正在加速,因为前车已经驶离。
  • LINGO-1:我正在踩刹车,准备在路口停车。
  • LINGO-1:我正在前进,因为车道畅通。
  • LINGO-1:完成左转,沿着路线行驶。

起猛了!自动驾驶可以聊天了_自动驾驶_05

然后,该模型不仅能够解释驾驶时候的行为,也能够进行问答对话。可以向 LINGO-1 提出有关各种驾驶场景的问题,以评估模型的场景理解能力并理解其推理。

比如询问它在十字路口中需要注意什么?

起猛了!自动驾驶可以聊天了_自然语言_06

它会回答说:我得注意前面的信号灯、我前面骑自行车的人和正在穿过道路的行人。

问一下现在是什么天气?会对驾驶产生什么影响? 它会说:现在是雨天,我开车时需要极其小心,因为雨天路面湿滑,能见度降低。

起猛了!自动驾驶可以聊天了_机器学习_07

模型表现

LINGO-1表现与人类水平相比大约为60%准确。通过一套综合基准测试追踪LINGO-1在各种感知、推理和驾驶知识任务上的问答表现。

起猛了!自动驾驶可以聊天了_模态_08

从图表中可以看出,近几周LINGO-1的表现有所提升,准确率几乎翻倍达到了60%的平均验证准确率。

下一步计划

提升端到端模型的AI可解释性:机器学习模型缺乏解释性常是一个共同的关切,因为其决策过程通常显得像一个黑匣子。可以通过利用语言,做到解析AI系统的作用。这种独特的对话可能增加透明度,使人们更容易理解和信任这些系统。此外,整合语言可能增强模型根据人类反馈进行适应和学习的能力,就像驾驶教练指导学员一样,纠正指导和用户反馈可以随时间改进模型的理解和决策过程。

通过更好的规划和推理来改善驾驶性能:利用LINGO的自然语言、推理和规划能力来增强我们的闭环驾驶模型。驾驶性能的两个主要因素是语言模型利用各种输入模态准确解释场景的能力以及驾驶模型在将中层推理转化为有效的低层规划方面的熟练程度。

起猛了!自动驾驶可以聊天了_人工智能_09

处理新场景或长尾情况的高效学习:自然语言可以解释驾驶场景中的因果因素。通过使用一些示例并附带简短的文本描述来说明在特定情境中如何行动以及需要考虑的其他因素,可以加速学习过程。

从目前来看,要真正的把这些知识和自动驾驶联系起来还是一个不小的挑战,但Wayve为我们展示了LLM在自动驾驶的可能,确实具有实现更好、更安全自动驾驶的潜力。这可以加速学习过程,提高模型的准确性,并增强其处理多样化驾驶任务的能力。

本期的内容就到这里了,我是leo,我们下期再见~