gpu超级流水线数组处理流水线cpu设计

转载

mob64ca1403528a 2024-05-02 19:57:54

文章标签 gpu超级流水线数组处理指令周期时钟周期取指令 文章分类 游戏开发

一、单指令周期

由前可知，一条CPU指令的执行有三个步骤：指令读取、指令译码、指令执行。由于这个过程受CPU时钟的控制，如果我们将这个过程安排在一个CPU时钟周期内执行，这种设计思路就叫单指令周期处理器。这样的设计需要将指令周期时间设为与耗时最长的那条指令执行时间相当，这样显然会使得CPU频率比较，会造成一些简单执行时大量CPU时间被浪费，如图示：

gpu超级流水线数组处理流水线cpu设计_gpu超级流水线数组处理

基于这种情况，现代的CPU都不是单指令周期处理器，而是采用了一种指令流水线的技术。

二、现代处理器流水线设计

由于指令的执行一般都可以拆分为多个小步骤，因此我们可以将一个指令的执行分解为诸如“取指令”、“译码”、“执行”这样的散步也可以拆分成更加细的步骤，那么在一个指令的取指令结束之后，可以马上进行下一个指令的取指令操作，如此整个执行效率就可以提高，只要是不存在前后依赖的子指令，理论上都可以并行提高效率。这样一来我们可以把CPU周期时钟周期时间设为一个个小步骤执行的时间即可。这样的协作模式就称为指令流水线，里面每一个独立的步骤就称为流水线阶段或流水线级。这样我们只需保证一个最复杂的流水线操作在一个CPU时钟周期之内完成就好了。

一个指令可以拆分为几个流水线级就称为几级流水线。

理想情况下，将CPU指令拆分成耗时差不多的流水线级是浪费时间最少的方案。在CPU内部也就像一个工厂一样，不同分工的组建不断的处理上游传递下来的内容，而无需等待上一个产品生产完成后再启动下一个商品的生产。

三、超长流水线的性能瓶颈

理论上，流水线级数拆分越深，CPU吞吐率会越高，但增加流水线深度也是有成本的，多增加一级流水线就要多一次写入流水线寄存器的操作，如图：

gpu超级流水线数组处理流水线cpu设计_指令周期_02

当流水线级数多到一定程度，额外的消耗甚至会大于执行指令的耗时。因此，设计合理的指令流水线级数在现代CPU中是非常重要的。

四、主频战争带来的超长流水线

流水线技术并不能减少单条指令的执行时间，只是能够提高运行很多条指令时的吞吐率。举例如下：

一条整数加法需要200ps；
一条整数乘法需要300ps；
一条浮点数乘法需要600ps；

那么在单指令周期情况下，CPU时钟周期应该设为600ps，结果是在1800ps内执行了3条指令。而如果使用六级流水线，每一级流水线都只需要100ps，那么当第一条指令的第一个stage结束之后，第二个指令的第一个stage就开始执行，第二个指令的第一个stage执行完成后，第三个指令就开始执行，这样三条指令的执行总共耗时800ps，吞吐量上升一倍多。