DeepSeek的创新2:MoE（Mix of Expert）混合专家机制

原创

hgditren 2025-04-04 23:59:01 博主文章分类：大语言模型 ©著作权

©著作权归作者所有：来自51CTO博客作者hgditren的原创作品，请联系作者获取转载授权，否则将追究法律责任

Routed Expert.png V3使用了61个MoE (Mix of Expert 混合专家) block，虽然总参数量很大，但每次训练或推理时只激活了很少链路，训练成本大大降低，推理速度显著提高。

MoE类比为医院的分诊台，在过去所有病人都要找全科医生，效率很低。但是MoE模型相当于有一个分诊台，将病人分配到不同的专科医生那里。DeepSeek在这方面也有创新，之前分诊是完全没有医学知识的保安，而现在用的是有医学知识的本科生来处理分流任务

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯