在AI的发展中,大规模语言模型已经取得了令人瞩目的成果,然而,随之而来的是模型质量和不确定性的问题。如何衡量和改进模型的质量,一直是我们面临的一个挑战。 为了解决这些问题,我们将在这篇文章中,介绍LangChain框架和TruLens工具,它们将帮助我们评估模型的质量,提高模型质量,并能够用量化的方法对抗不确定。 本文为一个系列,之前内容没有看过的小伙伴可以点击链接查看:AI课程合集 什么是
原创 精选 2024-01-04 08:15:41
637阅读
编者按: 在构建基于大语言模型的应用时,你是否遇到过这样的困扰:多个 AI Agent 协同工作时,如何确保它们的表现符合预期?如何有效监控它们之间的互动质量?这些问题不仅影响着产品的性能,更直接关系到用户体验的好坏。本文作者基于实际项目经验,深入剖析了 Agentneo、Arize Phoenix 和 TruLens 这三款主流评估工具的特点和应用场景。通过具体的代码示例和实践建议,展示了如何从
原创 8月前
214阅读