多模态大型语言模型(MLLM)目前主要通过数字化的方式与信息世界进行交互,涉及自然语言处理、计算机视觉和多模态生成任务等领域。然而,将这些模型引入物理世界时,我们要求它们不仅能够在虚拟环境中执行任务,还要具备理解和参与现实生活场景的能力。从机器人执行物理任务到语言模型在实际环境中规划任务的能力,大型模型与物理世界的交互将为人工智能的发展开辟崭新的篇章。

MLLM 能够有效整合不同来源的信息,包括实时任务进展、视觉观察以及开放式语言指令等多样化的上下文输入。这种整合能力使模型能够更全面地理解周围环境,并且能够根据任务目标生成相应路径规划。具体来说:

  • 实时任务进展:提供了关于任务当前状态的关键信息;
  • 视觉观察:使模型能够感知环境中的物体、状态变化和空间关系;
  • 开放式语言指令:为模型提供了任务的高层描述和指导。

腾讯提出的 EgoPlan-Bench 通过考虑任务的高层目标、当前视觉观察和语言指令,使模型能够预测下一个可行的动作。这种规划能力让模型仿佛具有自主思考和执行任务的能力,能够逐步执行动作。与传统的自我中心视频问答基准不同,EgoPlan-Bench 更贴近现实世界的应用场景,因为模型的输出可以直接用作在真实环境中执行任务的计划。

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_ide

▲图1 即使是 GPT-4V 也犯错,EgoPlan-Bench 在现实场景中的实时任务进展和视觉观察中提出了身体规划的重大挑战

论文题目:
EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models

论文链接:
https://arxiv.org/abs/2312.06722


背景:自我中心视频问答(Egocentric Video Question-Answering)

自我中心视频问答旨在让计算机系统理解并回答从第一人称(自我中心)视角拍摄的视频相关的问题。这类任务通常涉及从个体为主体的视角所记录的日常活动,例如佩戴可穿戴摄像头或用头戴式摄像设备捕捉的视频。

任务的目标是使计算机系统能够理解视频中发生的事件、识别关键物体、推断动作的目的,并以自然语言回答用户提出的问题。这要求模型综合使用视觉信息和语言理解,以便更全面地理解场景和提供准确的回答。

与传统的视频问答任务不同,自我中心视频问答强调个体主体的主观视角,需要模型更好地理解视频中的环境、互动和任务目标。这使任务更富有挑战性,要求模型在融合视觉和语言信息时更深入地考虑主观体验,以更准确地回答用户的问题。

背景:身体规划(Embodied Planning)

身体规划是指在机器人学、人工智能和相关领域中,系统或智能体如何规划和执行特定任务的能力。这种规划需要考虑到系统的物理身体,例如机器人、虚拟智能体或其他实体,以及其与环境的互动。身体规划涉及将高级任务目标翻译成具体的行动序列,以便系统能够有效地实现这些目标。

在自我中心身体规划中,强调了从个体主体的视角规划和执行任务。这意味着系统需要考虑到个体的位置、视野、动作和任务目标,以便在执行特定任务时融合视觉和行动规划。例如,在虚拟环境中,一个自我中心身体规划系统可能需要规划虚拟智能体如何在环境中移动、与物体互动,并执行特定的任务。

EgoPlan-Bench

如图 2 所示,给定一个高层次任务目标的语言指令,自我中心身体规划的目标是根据视频中展示的任务进展、当前视觉观察和语言指令来预测下一个合适的动作。作者所提出的 EgoPlan-Bench 是一个评估基准,其中包含了三千多个高质量、经过人工验证的自我中心身体规划问题。

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_IT_02

▲图2 EgoPlan-Bench 评估自我中心的身体**规划**

相比之下,现有的自我中心视频问答基准主要评估理解(即模型根据整个视频的空间和时间理解回答问题)。关键差异在于 EgoPlan-Bench 的设置更符合现实中的身体人工智能应用,因为模型的输出可以直接作为智能体在实际环境中执行任务的计划

具有三个主要特征:

  1. 任务的现实性:任务从真实世界视频中推断出来,更贴近日常人类需求,比人为构造的任务展示更多的多样性。
  2. 动作的多样性:涉及一系列多样的动作,需要与数百种不同对象进行交互,并且超越了基本的操作技能(如拾取和放置物品)。
  3. 视觉观察的复杂性:视觉观察来自各种常常不同的现实世界环境,在这些环境中,对象的外观、状态和位置各异。

EgoPlan-Bench 整个构建流程如图 3 所示:

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_ide_03

▲图3 EgoPlan-Bench 构建流程概述

  1. 任务目标的层次化识别和分解: 使用 GPT-4 以一种分层的方式来识别和分解动作中的共同任务目标。对于每个动作,模型首先总结整个视频的总体任务目标,然后逐步分解该任务目标,形成任务层次结构,包括总体目标、子目标和次级子目标。
  2. 任务过滤: 由于采用的未修剪视频时长不同,任务在不同视频中的层次结构可能存在不一致。为了减轻这种不一致性,对从不同视频中提取的总体目标、子目标和次级子目标进行集体过滤,以确保任务难度适中。
  3. 多项选择问题生成: 通过自动生成问题,并采用多选的形式设计问题。问题是根据任务目标自动生成的,而选项则来自同一任务不同步骤中的动作。这种设计使得模型在回答问题时需要考虑任务目标的层次结构和相关动作。
  4. 人工验证: 最后,为了确保基准测试的质量,雇用人类注释者对自动生成的每个问题进行验证。注释者选择答案,以确保问题的准确性和与视觉观察的一致性。

数据与评估策略

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_真实世界_04

▲表1 EgoPlan-Bench 评估数据统计

如表 1 所示,基准测试包括 3355 个 QA 对,其中 2432 个来自 Epic-Kitchen 自我中心视频,923 个来自 Ego4D。而图 4 描述了最常见的名词-动词组合,该基准中存在了各种动作。

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_python_05

▲图4 EgoPlan-Bench 候选动作中前 20 个最常见的基本动词(内圈)及其前 8 个直接名词对象(外圈)

对于每个问题和各个选项,评估过程中计算了 MLLM 生成给定问题的每个选项的可能性,然后,从这些可能性中选择具有最高概率的选项作为模型对该问题的预测。这种评估方法可以避免模型性能受到选项在提示中的顺序影响,确保公正地评估模型对问题的回答能力。

评估结果

表 2 展示了这些模型在多个 MLLM 上的表现,然而,大多数模型仅略优于随机猜测,而性能最佳的模型仅达到了 34.40% 的准确率。这表明当前的 MLLM 在作为真实世界身体任务规划方面还存在不足。

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_IT_06

▲表2 MLLM 在 EgoPlan-Bench 上的性能

GPT-4V 的案例研究

作为当前 MLLM 性能的上限,如图 5 所示,GPT-4V 需要总结任务进展并描述当前观察,然后规划下一个动作。

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_真实世界_07

▲图5 GPT-4V 的案例研究

观察结果表明,尽管 GPT-4V 在识别明显动作方面表现良好,但它可能会忽略对任务目标至关重要的微妙状态变化。错误地解释视觉输入导致了不正确的计划,突显了 MLLM 在处理实时任务执行时在视觉线索方面需要改进。未来的改进方向包括开发更先进的算法、提高上下文理解、以及整合实时反馈机制,这将增强 MLLM 在自我中心身体规划中的性能,使其更适用于真实世界场景。

提升规划能力的指令微调

作者还研究了通过指令微调来提高 MLLM 的自我中心身体规划能力,构建了一个指令微调数据集 EgoPlan-IT,以使 MLLM 能够从实际视频中有效地学习身体规划经验。

作者选择 Video-LLaMA 作为调查的 baseline MLMM。该模型的视觉处理器由四个组件组成:图像编码器、位置嵌入层、视频 Q-former 和线性层。

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_ide_08

▲图6 使用 EgoPlan-IT 增强模型 VideoLLaMA 的示意图

表 3 的结果清楚地显示,通过在数据上指令微调,Video-LLaMA 模型在准确性方面明显优于之前的 SOTA 模型 InternLM-Xcomposer-VL。值得关注的是,经过增强的模型准确性相较于其原始版本提高了 23%。此外,该增强模型展示了在域外评估子集上的强大领域迁移能力,这表明通过在 Ego-IT 数据上进行指令微调所积累的经验有效地可迁移到新环境的自我中心身体规划任务中

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_python_09

▲表3 在 EgoPlan-IT 上微调的模型(Video-LLaMA)的性能(准确性 %)

最后,如图 8 所示,在模拟环境 VirtualHome 中对通过 EgoPlan-IT 微调的模型进行定性评估。在这个评估中,模型为智能体生成了逐步的动作预测,以完成特定任务。使用了束搜索解码算法,选择了前五个预测中的第一个来执行。结果显示,模型的预测与每一步的视觉进展和实时观察密切匹配,成功地引导了具有长时程任务的智能体。

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_IT_10

▲图8 在 EgoPlan-IT 上微调的模型可以有效地充当体现任务规划者

总结

在执行可执行任务规划时, MLLM 通过综合考虑来自多个来源的信息,能够逐步分解高层次任务目标,生成一系列可执行的动作步骤。因此,MLLM 在整合多样化的环境输入方面表现出色,这对于实现有效的任务规划至关重要。这使得它们在实际场景中的应用潜力更为广泛,特别是在需要综合考虑多种信息来源的复杂任务执行环境中。

通过对各种开源 MLLM 在 EgoPlan-Bench 上的性能进行评估,我们发现这些模型在真实世界的机器人任务规划方面尚未达到理想水平。为了改进模型的性能,作者又构建了一个指令微调数据集 EgoPlan-IT,通过在实际视频中学习高级任务规划经验来增强 MLLM 的能力。实验证明,经过 EgoPlan-IT 微调的模型在整体评估中准确性显著提高,并在领域迁移方面表现不错。

这项研究不仅揭示了 MLLM 在自我中心机器人规划方面的挑战,还为改进这些模型的方法提供了新方向。我们期待未来的研究能够进一步推动该领域的发展,使模型更好地理解任务目标、视觉观察和语言指令,从而更有效地规划和执行各种任务。

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_真实世界_11

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!_真实世界_12