大模型LLM应用开发：手把手教你设计 Agent 用户交互（一）什么是智能体？

原创

沈页dd 2024-10-30 15:05:09 ©著作权

文章标签 人工智能大模型 AI大模型 ai LLM 文章分类 Html/CSS 前端开发

©著作权归作者所有：来自51CTO博客作者沈页dd的原创作品，请联系作者获取转载授权，否则将追究法律责任

LangChain 可以算是 LLM 时代做 AI 应用开发必备的框架和平台，从模型选择、数据库链接与各种 Agent 搭建等，AI 应用的搭建、运行和管理都可以在 LangChain 上进行。

某种意义上，LangChain 可能是最了解 Agent（智能体）的平台。

最近，LangChain 创始人 Harrison Chase 发表了一系列对于 Agent 的设计、规划和用户交互设计的探讨。对于当下如何理解 Agent、如何设计 AI 应用的交互上，有很多来自第一线的认知，推荐一读。

一些有意思的点：

什么是智能体？每个人似乎都有不同的定义，吴恩达的建议是，「与其争论什么应被归类为真正的智能体，不如承认系统具有不同程度的智能体特性（agentic）」，就像自动驾驶汽车有不同的自动化等级一样。
目前最主流的 UX 是「流式聊天」，一个很典型的例子是 ChatGPT，用户通过自然语言和 LLM 进行交互，不过，不少创业者相信，除了聊天之外，还有更多的 UX 模式值得考虑。
和流式聊天最大的区别在于，非流式聊天的响应是以完整的批次返回的，这是个缺点，因为你不知道系统内部发生了什么，但另一方面，Linus Lee 提到，「我有意将界面设计得尽可能不透明」，不透明的界面需要一定程度的信任，但信任一旦建立，你就只需要把任务委派给智能体，而不必过多干预。
如何建立用户对智能体的信任？一个简单的方式，把每次操作展示给用户。除此之外，不仅让用户看到发生了什么，还要让他们能够纠正智能体的操作。用户可以在工作流中途暂停，提供反馈，然后让智能体继续执行。
需要将用户从「在循环中」转变为「在循环上」。「在循环上」意味着智能体需要向用户展示其执行的所有中间步骤，用户可以在工作流中途暂停，提供反馈，然后让智能体继续执行。一个已经实现了类似用户体验的应用是 Devin——AI 软件工程师。

一、什么是智能体？

大模型LLM应用开发：手把手教你设计 Agent 用户交互（一）什么是智能体？_ai

「什么是智能体？」

我几乎每天都会被问到这个问题。在 LangChain，我们构建工具帮助开发者创建大语言模型（LLM）应用程序，特别是那些作为推理引擎并与外部数据和计算资源交互的系统。这些系统通常被称为「智能体」。

每个人似乎对智能体的定义都有些不同。我的定义可能比大多数人更加技术化：

智能体是一个使用大语言模型（LLM）来决定应用程序控制流的系统。

即便如此，我承认我的定义并不完美。人们通常认为智能体是高级的、自主的、类似人类的——但如果是一个简单的系统，LLM 只是在两条不同路径之间进行路由选择呢？这符合我的技术定义，但与人们普遍对智能体应具备的能力认知不一致。要精确定义什么是智能体，确实非常困难！

因此，我非常喜欢 Andrew Ng 上周的推文。在推文中，他建议「与其争论什么应被归类为真正的智能体，不如承认系统具有不同程度的智能体特性（agentic）。」就像自动驾驶汽车有不同的自动化等级一样，我们也可以将智能体的能力视作一个光谱。我非常赞同这一观点，并且认为 Andrew 表达得非常到位。未来，当再有人问我什么是智能体时，我将转而讨论什么是「智能体特性」。

原文地址：https://x.com/AndrewYNg/status/1801295202788983136