前言

       在用 CUDA 对 GPU 进行并行编程的过程中,除了需要对线程架构要有深刻的认识外,也需要对存储系统架构有深入的了解。

       这两个部分是 GPU 编程中最为基础,也是最为重要的部分,需要花时间去理解吸收,加深内功。 

了解 GPU 存储系统架构的意义

       CUDA 编程架构的设计思路本身也就是让程序员去使用缓存,而不是让缓存像 CPU 编程结构那样对程序员透明。

       通过对所使用存储结构的优化,能够让程序的并行后的效果得到很大提高。

       因此,这个问题是需要我们在开发全程中考虑的。

第一层:寄存器

       每个流处理器中的寄存器数以千计,每个线程都能分配到其私有的寄存器,这样做的好处是使得线程的切换几乎是零开销 (也许说是线程束的切换会更为准确)。

       应当在硬件条件允许的情况下,尽可能地使用寄存器 (注意是硬件条件的允许之下)。

       在核函数中定义的变量就是寄存器变量。

第二层:共享内存

       共享内存的本质是可受用户控制的一级缓存。每个 SM 中的一级缓存与共享内存共享一个 64 KB的内存段。在费米架构中,可以为每个块定义 16 KB的共享内存。灵活地使用共享内存,能够大幅度提高显存的带宽。此外,共享内存也是实现块内线程间通信的有效工具。

       使用时需要注意的一个地方是,只有在确定需要重复利用此空间的数据,或者明确要使块内线程进行通信的前提下,才考虑使用共享内存。(原因不解释)

       使用时需要注意的另一个地方是应当尽可能地避免存储体冲突。这里所谓的存储体是指实现共享内存的硬件 - 一个费米架构的设备上有 32 个存储体。解决此问题的关键在于:顺序访问存储体。

       实际开发中,常常将一个任务分解成多个部分(不论是任务分解还是数据分解),共享内存在其中扮演着任务块工作任务汇总或者数据块工作任务汇总的角色。

       核函数中定义的变量加上__shared__声明后就会存放在共享内存中了。

第三层:常量内存

       常量内存其实只是全局内存的一种虚拟地址形式,并没有特殊保留的常量内存块。

       使用起来非常方便,在主机端对需要放到常量内存区的变量添加 __constant__ 关键字声明之即可。

       唯独需要注意的是,如果一个常量仅仅是一个字面值,那么将它声明为宏也行,例如 PI 这样的常数就一般定义为宏。

第四层:全局内存

       全局内存,也就是显存。

       在主机端开辟的显存空间均属于全局内存范畴。

       使用全局内存的时候,需要注意的是应当学会对显存采取合并的访问方式。何谓合并的访问方式呢?请参阅下篇文章。