
| 模型 | 方法 |
|---|---|
| DeepSeek-R1-Zero | 纯强化学习 |
| DeepSeek-R1 | 冷启动 SFT(监督微调) -> RL(强化学习) -> COT(长链推理) + 通用数据 |
| 蒸馏小模型 | 直接用上面的 80w 数据进行SFT(监督微调) |
DeepSeek-R1-Zero首次验证了纯强化学习在 LLM 中能显著增强推理能力 的可行性,即无需SFT,仅通过 RL 即可激励模型学会长链推理和反思。 提出了多阶段训练策略(冷启动->RL->SFT->全场景 RL),有效兼顾准确 率与可读性,产出 DeepSeek-R1,性能比肩 OpenAI-o1-1217。 展示了知识蒸馏在提升小模型推理能力方面的潜力,并开源多个大小不 一的蒸馏模型(1.5B~70B)
















