基于GPU的图像识别技术

转载

mob64ca13fa6a3c 2024-09-14 18:59:11

文章标签 基于GPU的图像识别技术 python CUDA 4D sed 文章分类 计算机视觉人工智能

又看到一篇不错的讲解GPU硬件的帖子。特地摘抄下来。原文在这里（）。感谢Bruce_0712的博客。

最近觉得不看官方的文档还是不行，有些在低计算版本的GPU里面显然的事情在高计算版本已经放宽了限制，应该看一下相应版本的GPU的要求。

从硬件角度分析，支持CUDA的NVIDIA 显卡，都是由多个multiprocessors 组成。每个 multiprocessor 里包含了8个stream processors，其组成是四个四个一组，也就是两组4D的处理器。每个 multiprocessor 还具有很多个（比如8192个）寄存器，一定的（比如16KB） share memory，以及 texture cache 和 constant cache。

基于GPU的图像识别技术_python

在 CUDA 中，大部份基本的运算动作，都可以由 stream processor 进行。每个 stream processor 都包含一个 FMA（fused-multiply-add）单元，可以进行一个乘法和一个加法。比较复杂的运算则会需要比较长的时间。

在执行 CUDA 程序的时候，每个 stream processor 就是对应一个 thread。每个 multiprocessor 则对应一个 block。但是我们一个block往往有很大量的线程，之前我们用到了256个和1024个，远超一个 multiprocessor 所有的8个 stream processor 。

实际上，虽然一个 multiprocessor 只有八个 stream processor，但是由于 stream processor 进行各种运算都有 latency，更不用提内存存取的 latency，因此 CUDA 在执行程序的时候，是以warp 为单位。

比如一个 warp 里面有 32 个 threads，分成两组 16 threads 的 half-warp。由于 stream processor 的运算至少有 4 cycles 的 latency，因此对一个 4D 的stream processors 来说，一次至少执行 16 个 threads（即 half-warp）才能有效隐藏各种运算的 latency（如果你开始运算，再开一个线程，开始运算，再开一个线程，开始运算，再开一个线程开始运算，这时候第一个线程就ok了，第一个线程再开始运算，看起来就没有延迟了，每个处理单元上最少开4个可以达到隐藏延迟的目的，也就是4*4=16个线程）。也因此，线程数达到隐藏各种latency的程度后，之后数量的提升就没有太大的作用了。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。