第六章 CUDA性能优化

关注陈城南AI

文章目录

CUDA C 编程友情链接：
6.1 WARP 和线程执行
6.2 全局存储器的带宽

第六章 CUDA性能优化

原创

陈城南AI 2021-09-13 17:38:22 博主文章分类：CUDA C ©著作权

文章标签 数据卷积性能优化核函数迭代 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者陈城南AI的原创作品，请联系作者获取转载授权，否则将追究法律责任

第六章性能优化

《大规模并行处理器编程实战》学习，其他章节关注专栏 CUDA C

CUDA C 编程友情链接：

第三章 CUDA 简介-CUDA C编程向量加法
第四章 CUDA数据并行执行模型
第五章 CUDA 存储器
第六章 CUDA性能优化（内附原书链接）
核函数：CUDA编程入门（一）-以图片运算看线程的组织和核函数的使用
拓展：CUDA卷积计算及其优化——以一维卷积为例

6.1 WARP 和线程执行

由于 SM（Streaming Multiprocessor）中实际由多个流处理单元（Streaming Processor, SP）进行单指令、多数据（SIMD）模式的执行，因此将线程块划分为 warp，方便调度给不同的 SP 执行。一般 warp 是 32 个线程。
在将线程划分时，按照多维数组变一维数组的映射进行32个线程的转化划分。
第六章 CUDA性能优化_核函数

如果是三维，则先对 threadIdx.z=0 的二维进行线性排列，再对1,2…排列。
当一个 warp 中存在 if-else，循环次数不定等情况时，warp 就要进行分支（diverge），判断情况并执行。以加法归约算法说明分支的存在：
第六章 CUDA性能优化_迭代_02

这是一个求和的并行加速算法，其本质是

第六章 CUDA性能优化_核函数_03

可以发现，在第2,3，…次迭代中，越来越多的线程被闲置，处于分支状态。其算法复杂度如下：
第六章 CUDA性能优化_核函数_04

可以通过对归约算法进行改进，从而提高硬件利用率，改进后的算法能让被使用的线程块越来越少，同时使用中的线程kernel不存在分支，多余的线程块block在逐次迭代中被释放出来，：
第六章 CUDA性能优化_卷积_05

第六章 CUDA性能优化_数据_06

6.2 全局存储器的带宽

为了方便整块数据的存取，矩阵乘法中(b)的访问形式能够合并数据，即其threadIdx.y实变动的，threadIdx.x和x+1,x+2…能被一起取出，从而加速。而(a)中循环主体是threadIdx.x，不能连续取出x+1, x+2，无法进行存储加速。
第六章 CUDA性能优化_数据_07

本章学习时尚未记录，如要学习建议查看原书（百度云链接，提取码：cuda，有我做的笔记，望谅解），顺便送一本CUDA指南。

赞
收藏
评论
分享
举报

上一篇：CUDA卷积计算及其优化——以一维卷积为例

下一篇：一文搞定 Python matplotlib 快速绘折线图（多子图、坐标轴刻度范围、字体设置）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册