Routed Expert.png V3使用了61个MoE (Mix of Expert 混合专家) block,虽然总参数量很大,但每次训练或推理时只激活了很少 链路,训练成本大大降低,推理速度显著提高。

MoE类比为医院的分诊台,在过去所有病人都要找全科医生,效率很低。但是MoE模型相当于有一个分诊台, 将病人分配到不同的专科医生那里。DeepSeek在这方面也有创新,之前分诊是完全没有医学知识的保安, 而现在用的是有医学知识的本科生来处理分流任务