Sakana 与 Jamba

精选原创

Transofomer周 2024-03-31 10:48:30 ©著作权

©著作权归作者所有：来自51CTO博客作者Transofomer周的原创作品，请联系作者获取转载授权，否则将追究法律责任

这篇不是什么技术文章，入门没门槛，浅显易懂。

测试完了DBRX，还行吧，但是也没说给我带来多大惊喜，看的出来dataset选的挺好，比如中文语料的识别，也看得出来对推理做了很大的功夫，几乎所有的复杂逻辑全按COT by default呈现，这些是优点，要说缺点，没啥特点，现在说实话给我惊喜的NLP，NLG模型几乎不多，Grok抢了一个最大的先机，我到现在也没玩上，DBRX可以，但是也几乎把我的子弹打空了...

Sakana 与 Jamba_模态

不聊它了，谈点别的。

我最近在看Sakana，我觉得他们很牛B , Llion Jones 是初创团队的，也就是这个人

Sakana 与 Jamba_权重_02

所以还是有点分量的，他们是家日本公司，致力于想做日本的AI No.1，国内知道的很少，但是在AI小圈子里他们最近折腾出来比较不得了的东西，大概是类似以下这种东西....

Sakana 与 Jamba_模态_03

妙蛙种子=>妙蛙草=>妙蛙花......

对，大概就是这种东西吧

或者更像这种....

Sakana 与 Jamba_权重_04

Sakana 与 Jamba_模态_05

对，就是这种！

他们叫做进化模型合并！（Evolutionary Model Merge）

简单说，有两种思路

第一种是切模型，比如下图，把A模型的几层和B模型的几层按一定的顺序进行重组

Sakana 与 Jamba_模态_06

第二种是合并权重，就A模型的同层和B模型的同层的权重做合并，比如矩阵乘，或者加，anyway出来一个新的模型C

Sakana 与 Jamba_权重_07

这个听起来特别疯狂的点子，居然被他们玩通了，而且他们做的训练，几个日语模型（我肯定不会去玩，我也看不懂日语）包含了NLP，多模态的（GPT4V类似），还有diffussion的，迅速霸榜日语区Sota，而且几乎没咋费劲

成绩巨好！

Sakana 与 Jamba_模态_08

Diffusion的我看着也不错，有那个范儿！

Sakana 与 Jamba_权重_09

我们正常人很少愿意弄剪枝合并，坦率说这两个操作，有些时候不能很简单用数学来解释，如果能解释的前提，是你了解了你所有的权重分布，那深度学习也就不在是很盒子来了，对吧，所以大多数操作，都是直觉性的，或者叫我以为，那为什么他们这么厉害呢，还是要归结于，他们的所谓Evolutionary Model Merge的算法，这块是他们的核心能力，现在也没公开。

论文在这 2403.13187.pdf (arxiv.org)，个人感觉写了等于没写，都被openai带坏了...

BTW，他们这个合并方法几乎不用重训，这公司惨到上个月才买的起GPU训练集群...

Sakana 与 Jamba_权重_10