Baihai_IDP的博客_IDP Meetup,技术干货,IDP

对 GPT 5 模型路由机制的深度解析

编者按：我们今天为大家带来的文章，作者的观点是：GPT-5 通过引入“智能路由器”架构，实现了按需调用不同专家模型的动态协作机制，标志着大模型正从“全能单体架构”迈向“专业化协同架构”的新范式。文章深入剖析了 GPT-5 路由机制的四大决策支柱 —— 对话类型、任务复杂度、工具需求与用户显性意图，并对比了其相较于 GPT-4、Toolformer 及早期插件系统的突破性进步。作者还详细拆解了该架

复杂度

模块化

API

原创 1天前 45 阅读

AI 编程热潮下的万字思考 —— 规避风险，善用其利

编者按：在 AI 技术席卷软件工程的今天，我们是否真的可以仅凭“氛围”和直觉，就构建出可靠、安全且可维护的生产级系统？我们今天为大家带来的这篇文章，作者的核心观点是：“氛围编程（vibe coding）”与“AI 辅助的工程实践”存在本质区别，前者虽在创意激发和快速原型中具有价值，但绝不能替代结构化的工程方法。文章通过多个维度深入探讨了这一观点：从 FAANG 团队的实际工作

氛围编程

AI

原创 8天前 34 阅读

LLM 应用评估综合指南（多轮对话系统、RAG、AI Agent）

编者按：随着大语言模型应用从简单的文本生成，发展到复杂的多轮对话机器人、检索增强生成（RAG）系统乃至智能体（Agent），我们应如何科学、有效地评估它们的性能，确保其稳定可靠？我们今天为大家带来的文章，作者的观点是，对现代 LLM 应用的评估，必须超越传统的 NLP 评估指标，转向一个分场景、系统化的评估体系，综合运用新兴的评价指标与自动化框架，从而全面地衡量系统的综合表现。作者系统梳理了从传

语言模型

LLM

AI应用评估

AI

原创 10天前 51 阅读

AI 推理服务是否真的无利可图？从第一性原理看 AI 推理成本

编者按：你是否也曾认为，AI 推理服务注定是一场烧钱的无底洞？我们今天为大家带来的这篇文章，作者的核心观点是：OpenAI 和 Anthropic 等公司在推理环节的实际成本远低于外界普遍认知，甚至在某些场景下已具备大幅盈利能力。文章通过第一性原理，以 H100 GPU 集群为例，详细拆解了输入与输出 token 的成本结构，指出输入处理成本极低（每百万 token 约 0.001 美元），而输

AI推理

AI

LLM

原创 15天前 69 阅读

驳“AI 泡沫论”：一场被误读的、正在进行中的产业结构性调整

编者按：当 GPT-5 的表现未达预期，当众多 AI 应用试点项目收效甚微，当市场开始质疑人工智能的发展前景时，我们是否正在经历一场 AI 泡沫的破裂？还是说，这些表面现象背后隐藏着更深层次的产业逻辑？我们今天为大家带来的这篇文章，作者的观点是：当前 AI 市场并非陷入停滞或崩溃，而是进入了一个必要的“消化阶段”，这一过程虽伴随阵痛，却

AI

人工智能

原创 17天前 70 阅读

GPU 网络通信基础，Part 3（LLM 训练过程的网络通信；InfiniBand 真的是“封闭”技术吗？）

编者按：为什么训练大语言模型需要如此苛刻的网络条件？InfiniBand 真的是“封闭”技术吗？英伟达在 AI 网络领域的优势究竟从何而来？文章从 LLM 训练的梯度下降过程切入，生动阐释了为何在包含数万 GPU 的集群中，哪怕一个 GPU 延迟 20 微秒，都会造成算力的巨大浪费。作者随后对比了企业网络、超大规模云网络和高性能计算网络三种场景，指出只有 HPC 网

英伟达

GPU

原创 21天前 41 阅读

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）

编者按：在大规模人工智能模型训练日益依赖分布式 GPU 集群的今天，我们是否真正理解支撑这些系统高效运行的网络架构？数据如何从存储设备抵达 GPU？训练过程中不同并行策略又如何对网络提出截然不同的挑战？我们今天为大家带来的文章，作者的核心观点是：现代 AI 训练系统必须通过严格区分前端与后端网络，并针对数据并行、流水线并行和专家并行等不同通信模式进行协同优化，才能有

GPU

LLM

原创 1月前 95 阅读

GPU 网络通信基础，Part 1（横向与纵向扩展；训练中的通信环节...）

编者按：当我们谈论训练万亿参数的大语言模型时，除了惊叹于其算力需求，是否曾深入思考过：如何让成千上万甚至数十万块 GPU 高效协同工作，像超级大脑般实时共享信息？本文以训练大语言模型对海量算力的迫切需求为切入点，深入剖析了大规模 GPU 集群网络设计的核心挑战与解决方案：首先揭示了理想化“全互联”架构的不可行性，进而引入网络交换机及分层“叶脊拓扑”结构。接着系统对比了两种关键

AI

AI大模型

GPU

原创 1月前 65 阅读

在 AI 领域，2025 年你最需要掌握的技能：上下文工程

编者按：您是否曾感觉到，尽管精心设计了提示词，AI 的表现却依然不尽如人意？甚至随着上下文越来越长，模型反而更容易“胡言乱语”？我们今天为大家带来的这篇文章，作者的核心观点是：“提示词工程”已经不够用了，下一代 AI 应用的核心竞争力在于“上下文工程”（Context Engineering）。文章系统地阐述了为何在智能体（Agent）时代，单纯堆砌信息的“提示词工程”思维会导致性能下降、成本飙

上下文工程

AI

LLM

Agent

原创 1月前 69 阅读

分享一些“氛围编程”的工程化技巧

编者按：在氛围编程日益普及的今天，开发者是否真的能够完全依赖 AI 编程助手来完成从设计到测试的全流程开发？我们今天为大家带来的文章，作者的观点是：AI 辅助编程是一种强大的效率工具，但开发者必须始终保持主导权，承担起代码质量、架构决策和测试验证的最终责任。文章系统性地介绍了“氛围编程”（Vibe Coding）的核心组成与工作流程，强调了明确需求与设计先行的重要性，并详细阐述了如何通

AI编程

氛围编程

AI

原创 1月前 40 阅读

AI Agents 能自己开发工具自己使用吗？一项智能体自迭代能力研究

编者按： AI 智能体能否通过构建和使用工具来实现真正的自我改进？当我们谈论人工智能的“自我进化”时，究竟指的是训练阶段的算法优化，还是推理阶段的能力提升？我们今天为大家带来的这篇文章，作者的观点是：当前的大语言模型虽然能够构建出复杂的开发工具，但在实际执行任务时往往选择忽略这些自建工具，更倾向于依赖既有知识直接解决问题。文章通过对比 GPT-5 和 Claude Opus 4 两个先进模型的实验

Agent

AI

原创 1月前 45 阅读

2025 年大语言模型架构演进：DeepSeek V3、OLMo 2、Gemma 3 与 Mistral 3.1 核心技术剖析

编者按：在 Transformer 架构诞生八年之际，我们是否真的见证了根本性的突破，还是只是在原有设计上不断打磨？今天我们为大家带来的这篇文章，作者的核心观点是：尽管大语言模型在技术细节上持续优化，其核心架构仍保持延续，真正的创新更多体现在效率提升与工程实现上。文章系统梳理了 2025 年多个主流开源模型的架构演进，重点分析了 DeepSeek-V3/R1 的多头潜在注意力（MLA）与混合专家

语言模型

LLM

AI

原创 1月前 74 阅读

MCP 是为开发者设计的工具，而非为 LLM 而设

编者按：你在开发 AI 智能体时，是否也曾为这些事头疼不已：每接入一个新工具就要重写集成代码？工具一多就难以统一管理？LLM 时而“幻觉”出根本不存在的工具调用？这些问题不仅拖慢开发节奏，更让智能体的稳定性和扩展性大打折扣。今天推荐的这篇文章，正来自一线开发者对 Model Context Protocol (MCP) 的深度实践与思考。对 LLM 来说，“常规”的

MCP

模型上下文协议

AI

原创 1月前 69 阅读

系统梳理 Test-Time Compute 的主要实现路径c

编者按： AI 真的在“思考”吗？当模型面对数学推理、代码生成或复杂决策时，它是如何一步步推演出答案的？如果你曾困惑于大模型在关键任务中表现不稳定、缺乏可解释性，甚至生成结果难以验证，那么你并不孤单。这些痛点不仅影响研发效率，更直接制约了AI在高风险场景中的落地可靠性。本文系统梳理了测试时计算（test-time compute）的三大实现路径：N 选 1 采样、多数投票及相关方法、思维

测试时计算

AI

推理模型

原创 1月前 40 阅读

系统梳理 RAG 系统的 21 种分块策略

编者按：我们今天为大家带来的文章，作者的观点是：分块（chunking）才是决定 RAG 系统成败的真正关键因素，不同场景需要匹配相应的分块策略。本文系统梳理了从基础到进阶的 21 种分块策略，涵盖了基础分块法、定长分块法、滑动窗口分块等传统方法，以及语义分块、上下文增强分块、多模态分块等前沿技术。作者 | Anjolaoluwa Ajayi编译 | 岳扬检索增强生成（RAG

AI

RAG

分块策略

原创 1月前 54 阅读

强化学习的“GPT-3 时刻”即将到来

编者按：强化学习能否像 GPT-3 改变自然语言处理那样，通过大规模扩展实现质的飞跃？为什么强化学习至今仍困在“先预训练，再微调”的传统模式中？为什么即使是最先进的 RL 模型，一旦脱离训练环境就变得如此脆弱？无论是自动驾驶、机器人控制，还是复杂系统优化，我们都需要能够快速适应新任务、具备真正泛化能力的智能体。然而当前的 RL 模型就像是“高分低能”的应试

强化学习

AI

LLM

原创 2月前 43 阅读

构建 AI 智能体的实用开源技术栈（框架、计算机与浏览器操控、语音功能、文档理解...）

编者按：面对市面上琳琅满目的开源工具，我们往往迷失在选择的焦虑中 —— 哪些工具真正经得起生产环境的考验？哪些只是看起来很酷的演示项目？更重要的是，如何避免把宝贵的开发时间浪费在那些半成品工具上？我们今天为大家带来的文章，作者的观点是：构建可靠的 AI 智能体需要的不是最新最炫的工具，而是经过实战检验、务实可靠的开源技术栈。本文作者系统梳理出一套经过实战检验的开源技术栈，涵盖智能体开发的九个核心

智能体

开源

AI

原创 2月前 146 阅读

RAG 文档解析工具选型指南

编者按：当你需要为 RAG 系统选择文档解析工具时，面对 GitHub 上数百个开源项目和各种商业解决方案，你是否感到无从下手？本文基于作者在实际项目中的工具使用经验，系统梳理了处理不同类型文档的工具选择。从知识图谱处理的 GRAG、KG-RAG、GNN-RAG 等工具，到表格解析的 TableRAG、TA。从 HTML 处理的 BeautifulSoup

RAG

LLM

AI

原创 2月前 47 阅读

OpenAI 开源模型 gpt-oss 是在合成数据上训练的吗？一些合理推测

编者按： OpenAI 首次发布的开源大模型 gpt-oss 系列为何在基准测试中表现亮眼，却在实际应用后发现不如预期？我们今天为大家带来的这篇文章，作者推测 OpenAI 的新开源模型本质上就是微软 Phi 模型的翻版，采用了相同的合成数据训练路线。本文给出了支持这个推测的三个理由：首先，作者通过对比 Phi 模型系列的发展历程，揭示了基于合成数据训练的模型普遍存在

OpenAI

AI

LLM

原创 2月前 65 阅读

当 AI SaaS 的边际成本不再为零，Cursor 是如何设计定价策略的？

编者按：当你的 AI 产品用户量激增，却发现每个活跃用户都在“烧钱”时，你是否也在为如何平衡成本控制与用户增长而彻夜难眠？在这个 AI 算力成本高企的时代，传统 SaaS “边际成本几乎为零”的美好时光已经一去不返。无数 AI 初创公司正面临着同一个残酷现实：用户越活跃，亏损越严重。这个问题正在让无数 AI 创业者

Cursor

AI编程

AI

原创 2月前 70 阅读

许多 AI 智能体评测基准并不可靠

编者按：当我们对 AI 智能体进行能力评估时，是真的在测量它们的真实水平吗？当前广泛使用的基准测试是否如我们想象的那样可靠和准确？我们今天为大家带来的文章，作者的核心观点是：当前许多 AI 智能体基准测试存在严重缺陷，亟需建立更严谨的评估框架。本文提供了一套系统性的解决方案 —— AI 智能体基准测试核查清单（ABC）。这个包含 43 个检查项目的创新框架，不仅能够帮助开发

基准测试

AI

智能体

原创 2月前 32 阅读

AI 智能体记忆机制详解

编者按：为什么我们总是感觉在与 AI 助手重复着同样的对话？为什么明明告诉过它的重要信息，五分钟后它就完全遗忘了？我们今天为大家带来的文章，作者的观点是：记忆能力是 AI 从工具进阶为真正智能伙伴的关键桥梁，只有具备完善的记忆系统，AI 才能提供个性化体验、拥有持续学习和处理复杂任务的能力。本文深度解析了记忆增强型 AI 系统的核心技术架构，介绍了“观察→记忆→行动→反思→更

人工智能

AI Agent

AI

原创 2月前 272 阅读

为何说「新数据源」是推动 AI 发展的核心动力？

编者按：我们今天为大家带来的这篇文章，作者提出：推动 AI 进步的核心动力不是算法创新，而是新数据源的解锁与规模化应用。文章深入剖析了 AI 发展史上的四次重大突破 —— 深度神经网络、Transformer + LLMs、RLHF 和推理能力的产生，揭示了每次技术跃进背后都对应着一个全新数据源的发现：从 ImageNet 图像数据库、互联网文本语料，到人类反馈标注，再到验证器数据。作者指出，这

数据源

语言模型

原创 2月前 38 阅读

构建 AI 护城河的六大常见误区分析

编者按：大家都在争相构建自己的“人工智能护城河”，但究竟什么才是真正有效的竞争壁垒？是海量的历史数据、定制化的模型，还是华丽的数据看板？我们今天为大家带来的文章，系统分析了当前企业在构建 AI 护城河时的六大常见误区，文章的核心观点是：真正的 AI 护城河需要长期积累、扎实的基础能力，而不是依赖表面功夫或单点突破。希望这篇文章能为您的 AI 战略提供启发，帮助您避免陷入常见误区，构建可持续发展的

人工智能

LLM

AI

原创 2月前 38 阅读

TPU Deep Dive：Google TPU 架构深度分析

编者按：在人工智能算力军备竞赛愈演愈烈的今天，为什么 Google 会选择与主流 GPU 截然不同的技术路线，开发出架构独特的 TPU？这种专用芯片究竟凭借什么优势，能够支撑起 Gemini、Veo 等 AI 模型的训练与推理？文章从单芯片架构出发，深入剖析了 TPU 的核心设计理念：首先解释了 TPU 如何通过脉动阵列和流水线技术优化矩阵运算，然后阐述了 XLA 编译器如何

TPU

原创 3月前 134 阅读

构建编程智能体一年实践的经验教训分享

编者按： AI 编程智能体的发展前景如何？创业者在这个快速变化的赛道中应该如何找到突破口？文章作者基于一年来打造 Codebuff 编程智能体的实战经验，深入分析了团队在产品开发过程中的成功决策与失误教训。他特别强调了 CLI 优先、注入更多上下文、产品定位高端等关键策略的重要性，同时也坦诚地反思了产品稳定性不足导致用户留存率低迷的问题。作者还对 2025 年编程智能体的发展趋势做出了预测。作者

AI Agent

AI

原创 3月前 51 阅读

告别提示词工程，「上下文工程」才是 AI Agent 的核心竞争力

编者按：什么样的技能才能真正决定 AI 智能体的成败？是更复杂的算法，还是更精妙的提示词？我们今天为大家带来的文章，作者的观点是：构建强大 AI 智能体的关键已从“提示词工程”转向“上下文工程”。文章从“上下文”的广义定义出发，详细拆解了影响 AI 决策的七大关键要素，包括系统指令、用户输入、历史对话、长期记忆、外部检索信息、可用工具及输出结构。通过对比“

AI

LLM

AI Agent

原创 3月前 109 阅读

深度剖析 Claude 4 的系统提示词（保留提示词原文，并提供译文）

编者按：想知道为什么 Claude 会“撒谎”说不了解自己的定价吗？为什么它的工具调用策略要根据用户查询的复杂度动态调整？对于 AI 从业者而言，无法掌握顶级模型的系统提示词设计精髓，意味着自己的产品很难达到同等的用户体验水准；对于普通用户来说，不了解这些“幕后规则”，就无法充分发挥 AI 工具的真正潜力。本文作者获取了 Claude 4 完整的系统提示词，并进行了迄今为止最深入的拆解分析

Claude

LLM

原创 3月前 113 阅读

AI 系统架构的演进：LLM → RAG → AI Workflow → AI Agent

编者按：当前 AI 系统建设中的一大痛点是：盲目追求先进技术而忽视业务实际需求，导致系统过度复杂、成本高昂、可靠性差。许多团队在 Agent 热潮中迷失方向，不知道何时该用简单的 LLM，何时需要 RAG，什么场景下才真正需要智能体。文章通过简历筛选这一典型应用场景，系统阐述了 AI 系统发展的四个核心阶段：从最基础的纯 LLM 架构，到增强检索能力的 RAG 系统，再到具备工具调用能力的 AI

LLM

RAG

Agent

原创 3月前 56 阅读

解析 AI 深度研究（Deep Research）功能

编者按：当你在使用 ChatGPT、Claude 或 Perplexity 时，是否好奇过为什么它们不仅能够回答你的问题，还能主动挖掘相关信息、交叉验证事实性信息，甚至提出你没想到的关联问题？为什么同样是 AI，有些只能机械地重复训练数据，而有些却能进行真正的“Deep Research”？本文详细解析了 AI 研究助手从理解用户查询到答案生成的

AI

LLM

原创 3月前 90 阅读 yyds干货盘点

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

Baihai_IDP的博客

对 GPT 5 模型路由机制的深度解析

AI 编程热潮下的万字思考 —— 规避风险，善用其利

LLM 应用评估综合指南（多轮对话系统、RAG、AI Agent）

AI 推理服务是否真的无利可图？从第一性原理看 AI 推理成本

驳“AI 泡沫论”：一场被误读的、正在进行中的产业结构性调整

GPU 网络通信基础，Part 3（LLM 训练过程的网络通信；InfiniBand 真的是“封闭”技术吗？）

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）

GPU 网络通信基础，Part 1（横向与纵向扩展；训练中的通信环节...）

在 AI 领域，2025 年你最需要掌握的技能：上下文工程

分享一些“氛围编程”的工程化技巧

AI Agents 能自己开发工具自己使用吗？一项智能体自迭代能力研究

2025 年大语言模型架构演进：DeepSeek V3、OLMo 2、Gemma 3 与 Mistral 3.1 核心技术剖析

MCP 是为开发者设计的工具，而非为 LLM 而设

系统梳理 Test-Time Compute 的主要实现路径c

系统梳理 RAG 系统的 21 种分块策略

强化学习的“GPT-3 时刻”即将到来

构建 AI 智能体的实用开源技术栈（框架、计算机与浏览器操控、语音功能、文档理解...）

RAG 文档解析工具选型指南

OpenAI 开源模型 gpt-oss 是在合成数据上训练的吗？一些合理推测

当 AI SaaS 的边际成本不再为零，Cursor 是如何设计定价策略的？

许多 AI 智能体评测基准并不可靠

AI 智能体记忆机制详解

为何说「新数据源」是推动 AI 发展的核心动力？

构建 AI 护城河的六大常见误区分析

TPU Deep Dive：Google TPU 架构深度分析

构建编程智能体一年实践的经验教训分享

告别提示词工程，「上下文工程」才是 AI Agent 的核心竞争力

深度剖析 Claude 4 的系统提示词（保留提示词原文，并提供译文）

AI 系统架构的演进：LLM → RAG → AI Workflow → AI Agent

解析 AI 深度研究（Deep Research）功能

欢迎