怎么看待Groq

原创

Transofomer周 2024-03-21 21:10:18 ©著作权

文章标签 Dojo 处理单元权重 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者Transofomer周的原创作品，请联系作者获取转载授权，否则将追究法律责任

用眼睛看。

就是字面上的意思用眼睛看。

我属于第一波玩到的，先给大家一个直观的印象，Groq到底有多快。

目前Groq只能选Llama的70b，和Mixtral的MoE，那我选7*8的这个MoE模型来实验。

怎么看待Groq_Dojo

这么好些字大概花了不到1秒，流式响应，其实是不是流式已经没那么重要了

怎么看待Groq_权重_02

，然后看每秒Token数525！！！

如果大家没什么概念可以做一下对比，GPT-3.5大概20几个，我用本地的卡做KV cache，然后Vllm拿Alpaca做推理，大概极限能冲到30几个Token...

是的，它就是这么快。

刚出的时候，Ross顶着TPU发明者的身份，被很多无良媒体解读说Groq是LPU，是Google TPU的同架构，然而两者根本一点关系也没有，TPU就别蹭了，TPU可以理解为更接近于GPU的架构,（TPU也根本做不到这么快，慢10倍都不止）LPU更像是Dojo，是空间计算的代表。

那它为什么这么快。

感兴趣的对空间计算，存算一体不太了解的可以先看Dojo系列。

特斯拉 DOJO超级计算系统究竟是个啥？（3） (qq.com)

我们先看一下它的架构和参数

怎么看待Groq_处理单元_03

如果只看芯片架构，就很Dojo...

VXM:向量处理单元
MXM:矩阵处理单元
SXM:管理tensor的reshape和IO通信的
和Dojo不一样的，它没有常量处理单元，纯纯为AI设计
只有SRAM作为存储单元

怎么看待Groq_处理单元_04

5120个向量处理ALU
4个Matrix处理单元可以支持320*320，一共409,600个乘加器支持整数和浮点运算。
480G的外部互联带宽
80TB/s的单chips访问带宽！然而只有230多MB吧...

怎么看待Groq_处理单元_05

从总体算力上看还好吧，一片大概是A100 312（dense）的百分之60，这么好像也一般啊。

那它为什么这么快，说起来这个原因就是LLM推理和训练是两回事，目前业界提升大模型推理速度的方法都在内存上使劲。

1- Flash-attention派：把QKV拆给散的block然后尽量在1,2级缓存上做，也就是寄存器和SRAM上做，离芯片近啊，虽然空间不大，但是算的快。

2- vLLM流，在HBM上面使劲存KVcache，因为LLM的推理是自回归的，你可以理解为，第一次推一个字，第二次推两个字，第三次推3个字，这样的逻辑，然后你第二次推之前存储前一次的一个字，第三次推存储第二次推出来的两个字，以此类推。。。

其实还有第三种量化，第四种蒸馏，这个就没什么意思了，不在这里讨论。

业界目前比较开源的（闭源的其实也一样）推理计算方案都用第二种，只有Dojo和Groq用的是第一种方案，就是离算力最近的存储。

这第一种方案比较吃力不讨好，因为一块SRAM一般的chip面积是Dram的5-6倍，价格也差不多的倍数，死贵，而且它容量从来都不太大，230MB，其实不小，Dojo一个Dojo core才给1.25.....

这时候遵从第二种方向的HBM派的反对声音就来了，比如某yangqing说因为现在大模型本身权重文件就大，而且又涉及到推理的KVcache这部分消耗，所以用Groq的230MB，同样去做一个llama-70B的推理, 然而：

"在运行Llama-2 70b模型时，需要305张Groq卡才足够，而用H100则只需要8张卡。从目前的价格来看，这意味着在同等吞吐量下，Groq的硬件成本是H100的40倍，能耗成本是10倍。"

上文不是我写的，我一个字没改，沾过来了...

从特别传统的思路上来讲，你不能说他说的是错的。

但是现在AI发展的硬件瓶颈不在算力上，主要在带带宽通信上，跨节点的通信比如IB，这个算，然后HBM和SRAM通信的带宽也算。

其实你左右在真正计算的过程中不也是要把HBM的东西load到SRAM上做么，那你何不就直接让KV还有权重在SRAM上常驻留呢？

怎么看待Groq_权重_06

拿NV的Femi架构的图举个例子 ,其实A和H也是一样的，你不可能不要L2 cache直接让SM去你的HBM里拿东西算，然后再交换，那多慢啊。

另外一个值得说的是, 做软件的人就不太理解硬件的成本，只是有个大概的逻辑，才会说出40倍这种推论...

如果认真看一下Groq的工艺就知道了，人家14nm，3-5年前的制程了，稀烂便宜的，成本是H100 4nm的30%可能我都多说了...

Groq一个chip也可以理解为类似Dojo的Tile的概念大概查了一下25*29左右的大小，一般一个wafer也就是晶圆，可以整出来差不多80个，一个晶圆正常报价是6000USD，也就说这东西成本不到100美金，就算600个也才6万美金。按着上文逻辑300个Groq的成本大概在3万，我算它的产品赚成本的1倍也才就6万美金

有人会说6万美金也很贵啊，H100一块才3万5，从这个角度你说的很对。

然后如果我把推理延迟做到H100的20分之一，你还会说我卖的贵吗？

全文完

怎么看待Groq_权重_07