对Al DSA的分类可以有很多不同的方式一种大的分类方法是从基础架构来看:
  传统架构+DSA。在传统架构的基础上增加新的DSA的硬件以及相应的指令例如GPU增加Tensor Core这种专用的加速器它的优势是灵活通用性能比较平衡而劣势是相对更专用的DSA在特定应用场景下的能效比性价比。
  Al领域专用架构即针对AI的新架构例如Google TPU它的设计是专门针对有限的AI应用场景牺牲一定的通用性和灵活性来换取更高的能效或者性价比。
  当然不同的架构选择其实都是针对不同的应用场景特点所作的tradeoff。   02百花齐放的Al DSA硬件
  下面我们回顾一下近几年各种很有特色的Al DSA的设计。   Google的TPU:于2017年正式发布,可以说在当时掀起了我们这几年AI芯片的热潮,到现在已经发布了四代。其实是一个相对来说是个比较专用的设计,围绕一个比较大的脉动阵列展开,其设计思路主要强调面向AI的数据中心系统级协同设计的方法,也就是说它的芯片是原生服务于整个的数据中心的系统,做了很多互联,扩展,散热等系统方面的优化。
  英伟达的GPU:增加Tensor Core和相应指令,大大提升了AI的矩阵运算的效率。
  华为的DaVinci架构:这是一个比较典型的Al DSA架构,它从一维的Scalar到二维的vector再到三维Matrix,都有专用硬件加速引擎,同时也有相应的Memory的Hierarchy,包括各种Buffer,也是AI的专用加速器常见的一种设计选择。
  Device Soc也加入了Al DSA的设计:2017年的时候华为旗舰智能手机芯片开始加入了NPU,苹果也加入了Neural Engine,到现在都发展了好几代,而且AI加速在芯片的SOC里面占的分量也是越来越重。