机器学习硬件加速asic 硬件加速算法

转载

温柔一刀 2023-11-06 20:12:52

文章标签 机器学习硬件加速asic 卷积卷积核权重 文章分类 机器学习人工智能

1、余同学的设计，初代目设计

参考了下面这篇博客

先找篇博客看看浙大的余大佬是怎么做的 T T

首先看卷积部分的并行加速怎么来的

机器学习硬件加速asic 硬件加速算法_卷积

以第一行为例

第一个时钟： X(n,0)*W00 图里有个寄存器，应该是结果放里面寄存了

第二个时钟： X(n,1)*W01 + X(n,0)*W00 && X(n,1)*W00 即下一次卷积窗口的第一个计算值。（这种顺序看着有点难受，从右往左的感觉T T）咱也没搞懂这个结果存哪。

第三个时钟：第三级流水线执行X(n, 2)*W02 + X(n, 1)*W01 + X(n, 0)*W00，第一级流水线执行X(n, 2)*W00，第二级流水线执行X(n, 1)*W00 + X(n, 2)*W01。以此类推。

（这里我理解的流水线就是这一行的三个分叉叉。

X(n,2)进来的时候，第一个分支执行X(n, 2)*W00，就是所谓的第一级流水线。第二个分支执行X(n, 1)*W00 + X(n, 2)*W01，其中X(n, 1)*W00是第二个时钟计算出来的结果，然后第三个分支就是X(n, 2)*W02 + X(n, 1)*W01 + X(n, 0)*W00 ）

看到这感觉到的好处 1、数据得到了复用 2、计算结果以后也能复用

但是该怎么个调度还不太清楚。卷积核的大小是否会影响计算的并行度？？

然后说了下相同特征图卷积窗口间并行实现分析

机器学习硬件加速asic 硬件加速算法_机器学习硬件加速asic_02

来了这么一个图，说实话，有点懵比。我猜这个图的意思是每个卷积窗口的结果能复用。

还有个图，Emmmmm 没太明白想表达啥。

机器学习硬件加速asic 硬件加速算法_机器学习硬件加速asic_03

强行分析一波：就拿这个图来看，咱就先当是个3*3的卷积核，这是是对卷积核的第一行做操作。相同特征图内话卷积核参数一样没得问题，如果是单通道特征图大小是H*W的话，然后每行的并行度是L。。这么做的话好像没体现计算结果的复用？

然后是不同输入特征图卷积窗口并行

机器学习硬件加速asic 硬件加速算法_卷积核_04

额不应该是一个卷积核对每个通道卷积然后求和拍成一张，不过这么画也没问题。

不同输出特征图并行

机器学习硬件加速asic 硬件加速算法_权重_05

暂时还没太看明白其深意，没错就是菜。

FPGA加速器设计

这里好像是一个重头戏的样子，先看一下整体设计

机器学习硬件加速asic 硬件加速算法_权重_06

发现看了没啥用，这俩箭头画的有点随意。。

卷积计算单元

或者这才是重头戏？

CNN层间运算具有独立性且各层运算具有高度相似性。

因此可通过复用单层运算资源来实现完整的CNN神经网络计算，在实现过程中只需实现单层的卷积计算结构。

来张高糊的图

机器学习硬件加速asic 硬件加速算法_机器学习硬件加速asic_07

上图是计算过程。在该实例中，有4副输入特征图，4副输出特征图，核的大小为3*3，上图中分左边阶段和右边阶段。采用并行性组合的方式，输出特征图之间的并行度为2，即同时计算两个输出特征图；输入特征图之间的并行度为2，即同时计算两个输入特征图；同一输入特征图不同卷积窗口的并行度为2，即同时计算两个卷积窗口。

就是相当于输入的时候两张图一起算，每张图一次算临近的两个卷积窗口。输出的时候同理。

但是这里的输入、输出特征图意义不够清晰，还得细看论文才能明白。

日后明白需补上补丁1