文章目录

  • DeepSeek 开源大模型:开源了什么?没开源什么?
  • 总结



DeepSeek开源了什么?没开源什么?


DeepSeek 开源大模型:开源了什么?没开源什么?

DeepSeek 的爆火,除了自身的技术创新和架构创新等硬实力外,选择开源也是推动热度的一个关键因素。

首先,它开源了什么?

  1. 模型架构和参数:DeepSeek 开放了模型架构和参数,开发者可以直接使用这个高性能模型,无需从头训练。尤其是其混合专家(MoE)架构,作为一种创新技术,为开发者提供了新的思路,并且允许自由修改和商业化使用。
  2. 技术报告和配套工具:DeepSeek 还开源了技术报告和配套工具,相当于不仅提供了“秘籍”,还详细讲解了如何验证自己的成果。

那它没开源什么?

  1. 训练数据:训练数据是决定大模型质量的关键因素,但由于数据涉及版权等问题,DeepSeek 并未开源训练数据。这也是行业内的普遍做法。
  2. 训练代码和推理代码:虽然 DeepSeek 在技术报告中披露了部分训练方法,但训练代码和推理代码并未开源。因此,想要完全复现模型仍然存在较大难度。

总结

总的来说,DeepSeek 在模型架构、参数和配套工具方面的开源做得相当不错,但在训练数据和完整训练框架方面有所保留。尽管如此,作为使用者,DeepSeek 的开源无疑为我们带来了极大的便利。未来,AI 可能会像水和电一样,无缝融入我们生活的各个场景中。