用眼睛看。

     就是字面上的意思用眼睛看。

     我属于第一波玩到的,先给大家一个直观的印象,Groq到底有多快。

     目前Groq只能选Llama的70b,和Mixtral的MoE,那我选7*8的这个MoE模型来实验。

     

怎么看待Groq_Dojo

      这么好些字大概花了不到1秒,流式响应,其实是不是流式已经没那么重要了

怎么看待Groq_权重_02

,然后看每秒Token数525!!!

       如果大家没什么概念可以做一下对比,GPT-3.5大概20几个,我用本地的卡做KV cache,然后Vllm拿Alpaca做推理,大概极限能冲到30几个Token...

       是的,它就是这么快。

       刚出的时候,Ross顶着TPU发明者的身份,被很多无良媒体解读说Groq是LPU,是Google TPU的同架构,然而两者根本一点关系也没有,TPU就别蹭了,TPU可以理解为更接近于GPU的架构,(TPU也根本做不到这么快,慢10倍都不止)LPU更像是Dojo,是空间计算的代表。

       那它为什么这么快。

       感兴趣的对空间计算,存算一体不太了解的可以先看Dojo系列。

特斯拉 DOJO超级计算系统究竟是个啥?(3) (qq.com)

       我们先看一下它的架构和参数

怎么看待Groq_处理单元_03

        如果只看芯片架构,就很Dojo...

  •    VXM:向量处理单元
  •    MXM:矩阵处理单元
  •    SXM:管理tensor的reshape和IO通信的
  •    和Dojo不一样的,它没有常量处理单元,纯纯为AI设计
  •    只有SRAM作为存储单元



怎么看待Groq_处理单元_04

  •          5120个向量处理ALU
  •          4个Matrix处理单元可以支持320*320,一共409,600个乘加器支持整数和浮点运算。
  •          480G的外部互联带宽
  •          80TB/s的单chips访问带宽!然而只有230多MB吧...

         

      

怎么看待Groq_处理单元_05

       从总体算力上看还好吧,一片大概是A100 312(dense)的百分之60,这么好像也一般啊。

       那它为什么这么快,说起来这个原因就是LLM推理和训练是两回事,目前业界提升大模型推理速度的方法都在内存上使劲。

       1- Flash-attention派:把QKV拆给散的block然后尽量在1,2级缓存上做,也就是寄存器和SRAM上做,离芯片近啊,虽然空间不大,但是算的快。

      2- vLLM流,在HBM上面使劲存KVcache,因为LLM的推理是自回归的,你可以理解为,第一次推一个字,第二次推两个字,第三次推3个字,这样的逻辑,然后你第二次推之前存储前一次的一个字,第三次推存储第二次推出来的两个字,以此类推。。。

       其实还有第三种量化,第四种蒸馏,这个就没什么意思了,不在这里讨论。

      业界目前比较开源的(闭源的其实也一样)推理计算方案都用第二种,只有Dojo和Groq用的是第一种方案,就是离算力最近的存储。

       这第一种方案比较吃力不讨好,因为一块SRAM一般的chip面积是Dram的5-6倍,价格也差不多的倍数,死贵,而且它容量从来都不太大,230MB,其实不小,Dojo一个Dojo core才给1.25.....

       这时候遵从第二种方向的HBM派的反对声音就来了,比如某yangqing说因为现在大模型本身权重文件就大,而且又涉及到推理的KVcache这部分消耗,所以用Groq的230MB,同样去做一个llama-70B的推理, 然而:

       "在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。"

      上文不是我写的,我一个字没改,沾过来了...

      从特别传统的思路上来讲,你不能说他说的是错的。

      但是现在AI发展的硬件瓶颈不在算力上,主要在带带宽通信上,跨节点的通信比如IB,这个算,然后HBM和SRAM通信的带宽也算。

      其实你左右在真正计算的过程中不也是要把HBM的东西load到SRAM上做么,那你何不就直接让KV还有权重在SRAM上常驻留呢?

怎么看待Groq_权重_06

       拿NV的Femi架构的图举个例子 ,其实A和H也是一样的,你不可能不要L2 cache直接让SM去你的HBM里拿东西算,然后再交换,那多慢啊。

      另外一个值得说的是, 做软件的人就不太理解硬件的成本,只是有个大概的逻辑,才会说出40倍这种推论...

      如果认真看一下Groq的工艺就知道了,人家14nm,3-5年前的制程了,稀烂便宜的,成本是H100 4nm的30%可能我都多说了...

      Groq一个chip也可以理解为类似Dojo的Tile的概念大概查了一下25*29左右的大小,一般一个wafer也就是晶圆,可以整出来差不多80个,一个晶圆正常报价是6000USD,也就说这东西成本不到100美金,就算600个也才6万美金。按着上文逻辑300个Groq的成本大概在3万,我算它的产品赚成本的1倍也才就6万美金

       有人会说6万美金也很贵啊,H100一块才3万5,从这个角度你说的很对。

       然后如果我把推理延迟做到H100的20分之一,你还会说我卖的贵吗?

      全文完

       

        

怎么看待Groq_权重_07