page14image50679456.png

模型 方法
DeepSeek-R1-Zero 纯强化学习
DeepSeek-R1 冷启动 SFT(监督微调) -> RL(强化学习) -> COT(长链推理) + 通用数据
蒸馏小模型 直接用上面的 80w 数据进行SFT(监督微调)

DeepSeek-R1-Zero首次验证了纯强化学习在 LLM 中能显著增强推理能力 的可行性,即无需SFT,仅通过 RL 即可激励模型学会长链推理和反思。 提出了多阶段训练策略(冷启动->RL->SFT->全场景 RL),有效兼顾准确 率与可读性,产出 DeepSeek-R1,性能比肩 OpenAI-o1-1217。 展示了知识蒸馏在提升小模型推理能力方面的潜力,并开源多个大小不 一的蒸馏模型(1.5B~70B)