这篇不是什么技术文章,入门没门槛,浅显易懂。
测试完了DBRX,还行吧,但是也没说给我带来多大惊喜,看的出来dataset选的挺好,比如中文语料的识别,也看得出来对推理做了很大的功夫,几乎所有的复杂逻辑全按COT by default呈现,这些是优点,要说缺点,没啥特点,现在说实话给我惊喜的NLP,NLG模型几乎不多,Grok抢了一个最大的先机,我到现在也没玩上,DBRX可以,但是也几乎把我的子弹打空了...
不聊它了,谈点别的。
我最近在看Sakana,我觉得他们很牛B , Llion Jones 是初创团队的,也就是这个人
所以还是有点分量的,他们是家日本公司,致力于想做日本的AI No.1,国内知道的很少,但是在AI小圈子里他们最近折腾出来比较不得了的东西,大概是类似以下这种东西....
妙蛙种子=>妙蛙草=>妙蛙花......
对,大概就是这种东西吧
或者更像这种....
对,就是这种!
他们叫做进化模型合并!(Evolutionary Model Merge)
简单说,有两种思路
第一种是切模型,比如下图,把A模型的几层和B模型的几层按一定的顺序进行重组
第二种是合并权重,就A模型的同层和B模型的同层的权重做合并,比如矩阵乘,或者加,anyway出来一个新的模型C
这个听起来特别疯狂的点子,居然被他们玩通了,而且他们做的训练,几个日语模型(我肯定不会去玩,我也看不懂日语)包含了NLP,多模态的(GPT4V类似),还有diffussion的,迅速霸榜日语区Sota,而且几乎没咋费劲
成绩巨好!
Diffusion的我看着也不错,有那个范儿!
我们正常人很少愿意弄剪枝合并,坦率说这两个操作,有些时候不能很简单用数学来解释,如果能解释的前提,是你了解了你所有的权重分布,那深度学习也就不在是很盒子来了,对吧,所以大多数操作,都是直觉性的,或者叫我以为,那为什么他们这么厉害呢,还是要归结于,他们的所谓Evolutionary Model Merge的算法,这块是他们的核心能力,现在也没公开。
论文在这 2403.13187.pdf (arxiv.org),个人感觉写了等于没写,都被openai带坏了...
BTW,他们这个合并方法几乎不用重训,这公司惨到上个月才买的起GPU训练集群...
然后我本来以为就他们自己这么玩,直到昨天Jamba横空出世...
(Evolutionary Model Merge)的产物,为什么这么说呢。
看它架构
模型结构也开源了啊,写这些软文的人不会去看看模型代码么...
它官网给的示意图是
多个Mamba和 Mamba MOE和 Transformer混搭的模型,特别像前文提的第一种,我不知道AI21labs是不是也掌握了和Sakana一样的能力,但是它这个从直觉上,如果你对模型的各层工作原理比较熟悉,这个看着就属实让人更容易接纳
几个层各司其职
- Mamba就搞SSM,搞时序,能降低Transformer的O(n)的平方,理论上几乎无限扩上下文,不占显存
- Mamba Moe就稀疏注意力,加参数总量还节省显存和训练复杂度
- Transformer就负责扩展能力和兼容现有的一些benifit
- Transformer(attention) Moe 和Mamba MOE一样
吞吐量挺好的,但是据说模型能力也就Mixtral 8*7的级别,所以我也就不测了,没啥意义,目前看比它好的一大把。
但是它可以140K的上下文在单GPU上,这个其实对于现在国内猛炒上下文的厂商还是很有吸引力吧,虽然他们大多都是隐式rag。
这都是Mamba的功劳,因为SSM就是这个特点啊
也不用开flash-attetion了,至少mamba这边都是原生的。
至于是为什么还要有Transformer,我提一点,纯用Mamba的方案好像没看过超过30B的,你们不要以为SSM是万能的,至于有人说,Mamba可以全面替代Transformer,我个人是不看好的。
写了这么多,就想表达一个观点,除了算力和数据,scaling law的模型算法也很重要,不然这行太无聊了,天天刷天梯都要吐了,希望能有更多好的模型算法出来,这行才会变得有意思。