三、用户交互之一:聊天体验不一定需要流式

人与计算机的交互已经研究了很多年。我相信在未来几年,人与智能体的交互也将成为一个重要的研究领域。

智能体系统与过去的传统计算机系统不同,主要是因为它们面临着新出现的挑战,如延迟、不可靠性和自然语言界面。因此,我坚信,与这些智能体应用程序交互的新 UI/UX 模式将会出现。

虽然目前智能体系统还处于早期阶段,但我认为已经有多个正在兴起的 UX 模式。本章,我们将讨论目前最主流的 UX 形式:聊天。

1、流式聊天

「流式聊天」UX 是目前最主流的 UX。它简单地指的是一个智能体系统以聊天格式实时返回其思考和行为——ChatGPT 是其中最受欢迎的例子。这种交互模式看似简单,但实际上有几个重要的优点。

与大语言模型 (LLM) 交互的主要方式是通过自然语言。在聊天中,你可以通过自然语言直接与 LLM 互动。这意味着你和 LLM 之间几乎没有任何障碍。

在某些方面,流式聊天就像早期计算机的「终端」。

终端(尤其是早期计算机的终端)提供了更底层、更直接的访问操作系统的方式。但随着时间的推移,计算机逐渐转向更多基于图形用户界面的交互。流式聊天可能类似——这是我们与 LLM 互动的第一种方式,它提供了对底层 LLM 的直接访问。随着时间的推移,其他 UX 可能会出现(就像计算机逐渐转向更多的 UI 交互)——但低层次的访问在初期有显著的优势!

流式聊天的一个优势是 LLM 可能需要一些时间来处理。流式方式让用户能够理解系统内部的实时情况。你可以看到 LLM 执行的中间步骤(包括它采取的动作和结果)以及它「思考」时生成的 token。

流式聊天的另一个好处是 LLM 经常出错。聊天提供了一个非常自然的界面,可以用来纠正和引导它!我们已经习惯了在聊天中进行后续对话,并通过这种迭代方式讨论问题。

当然,流式聊天也有其缺点。首先,流式聊天是一种相对较新的 UX,因此我们现有的聊天平台(如 iMessage、Facebook Messenger、Slack 等)还没有内置这种模式。其次,对于需要较长时间运行的任务来说,这种模式可能会有点别扭——难道我要一直坐在那里看着智能体工作吗?第三,流式聊天通常需要由人类触发,这意味着人类仍然深度参与其中。

2、非流式聊天

称它为「非流式聊天」听起来有些奇怪,因为直到两年前,我们还只是把它称为「聊天」——但事实就是这样。非流式聊天与流式聊天有很多相似之处——它向用户直接暴露 LLM,并且允许非常自然地进行纠正。

非流式聊天的主要区别在于,响应是以完整的批次返回的,这既有利也有弊。最大的缺点是你无法看到系统内部发生了什么,结果就是你会被蒙在鼓里。

但是……这真的是问题吗?

Linus Lee 最近对「委托」发表了一些精彩的见解,我非常喜欢。他的一个片段很好地说明了这一点:

我有意将界面设计得尽可能不透明。

他认为,不透明的界面需要一定程度的信任,但一旦建立了这种信任,就可以让你_只需将任务委派给智能体_,而不必进行微观管理。这种异步性质也有助于处理长时间运行的任务——这意味着智能体可以为你做更多的工作。

假设信任得以建立,这似乎是一个好事情。但它也会引发其他问题。例如,如何处理「重复发送」——即用户发送一条消息,智能体开始执行任务,而用户在智能体完成任务之前再次发送另一条(有时是无关的)消息。在流式聊天中,通常不会出现这种问题,因为智能体的流式信息会阻止用户输入新的内容。

非流式聊天 UX 的一个优势是它更符合我们的日常习惯,这意味着它可能更容易整合到现有的工作流程中。人们习惯于与其他人通过文本消息交流——为什么不也适应与 AI 进行文字交流呢?

非流式聊天的另一个大优点是,它通常允许 AI 花费更多的时间来回应。

这通常是因为非流式聊天更自然地集成到我们现有的工作流程中。我们不期望朋友立刻回复消息——为什么我们要期望 AI 这样做呢?这使得与更复杂的智能体系统交互变得更容易——这些系统往往需要时间,而如果我们期待即时回复,可能会感到沮丧。非流式聊天往往消除了这种期望,使得执行更复杂的任务变得更加轻松。

流式聊天似乎是更新、更闪亮、更具未来感的技术……但随着我们对智能体系统的信任增加,这种趋势是否会逆转呢?

3、聊天之外的更多 UX 形式?

我们相信除了聊天之外,还有更多的 UX 模式值得考虑。不过,仍然值得提醒的是,聊天是一个非常好的用户体验设计,它被广泛使用是有原因的。

聊天的好处:

  • 允许用户直接与模型交互
  • 允许用户轻松提出后续问题和/或进行纠正

流式与非流式聊天的优缺点

大模型LLM应用开发:手把手教你设计 Agent 用户交互(三)聊天体验不一定需要流式_ai