DeepSeek 正式推出了其大语言模型 V3.1 版本,引入了一种[混合架构](https://www.lyzr.ai/glossaries/hybrid-flow-ai-architecture/#:~:text=A Hybrid flow AI Architecture represents a sophisticated and strategic,into a unified%2C orchestrated workflow.),将“思考模式”和“非思考模式”结合在同一系统中。新的思考模式被命名为 DeepSeek-V3.1-Think,相比之前的 DeepSeek-R1-0528 模型,推理速度更快,同时保持相近的回答质量。此外,这次更新还通过后训练调整,提升了工具调用能力和多步骤任务的执行效果。

DeepSeek-V3.1 的开发基于 DeepSeek-V3-Base 检查点,并采用了“两阶段上下文扩展”策略。第一阶段使用 6300 亿训练数据,将上下文窗口扩展到 32,000 tokens;第二阶段又加入 2090 亿数据,将上下文进一步扩展到 128,000 tokens。与之前的版本相比,这让模型能够处理更长的输入序列。

在训练中,V3.1 采用了 FP8 UE8M0 精度来存储权重和激活值。这种格式不仅提升了计算效率,还兼容微缩放技术,使得大规模模型的部署更加高效。模型整体参数量为 6710 亿,其中每个 token 激活的参数约 370 亿,并支持最长 128,000-token 的上下文输入。

在开源代码和推理类 基准测试 中,DeepSeek V3.1 也表现优异。在社区测试中,它在 Aider benchmark 上取得了 71.6% 的成绩,超越了 Claude 4,并接近 GPT-4。更值得注意的是,DeepSeek V3.1 完整运行测试仅需约 1 美元的算力成本,而其他模型则需要几十美元。

RedditX 的社区讨论中,大家对 V3.1 评价不一。一些开发者认为它是 GPT 或 Claude 的高性价比替代方案,尤其在代码和推理任务中,以极低成本取得了强劲表现。用户 badgerbadgerbadgerWI 表示:

DeepSeek 的性价比简直逆天。我们已经在本地用它做代码审查了。

同时,AI 工程师 Prince Ramoliya 分享道:

混合推理的设计太棒了。一个模型能在深度思考和快速响应之间切换,感觉就是 AI 的未来。

目前,这个模型已在多个平台上线,包括 Hugging FaceOpenRouterReplicate。同时,官方也提供了 API 文档更新说明,详细介绍了技术细节和性能测试结果。开发者可以根据需求,选择普通生成模式或带推理增强的输出模式。

与 DeepSeek-V3 相比,这一版本更注重效率与推理能力的平衡。通过工具调用和结构化后训练优化,DeepSeek-V3.1 试图解决多步骤推理任务的难题,同时保持推理速度,满足生产环境的实际应用。其混合架构体现了将显式推理优势与传统自回归生成高效性相结合的探索方向。