陈城南AI的博客_CUDA C

第5章 CUDA存储器

第五章 CUDA 存储器《大规模并行处理器编程实战》学习，其他章节关注专栏 CUDA C CUDA C 编程友情链接：第三章 CUDA 简介-CUDA C编程向量加法第四章 CUDA数据并行执行模型第五章 CUDA 存储器第六章 CUDA性能优化（内附原书链接）核函数：CUDA编程入门（一）-以图片运算看线程的组织和核函数的使用拓展：CUDA卷积计算及其优化——以一维卷积为例

全局存储器

数据

共享存储器

寄存器

浮点数

原创 2021-09-17 10:14:00 261 阅读

CUDA编程入门（一）：以图片运算看线程的组织和核函数的使用

CUDA编程入门（一）：以图片运算看线程的组织和核函数的使用《大规模并行处理器编程实战》学习，其他章节关注专栏 CUDA C 初次接触 CUDA C 编程不建议直接阅读，友情链接：第三章 CUDA 简介-CUDA C编程向量加法第四章 CUDA数据并行执行模型第五章 CUDA 存储器第六章 CUDA性能优化（内附原书链接）理解本文后，可进行卷积优化学习：CUDA卷积计算及其优化—

数据

数据结构

核函数

卷积

二维

原创 2021-09-17 10:13:41 965 阅读

大规模并行处理器编程实战 - 第4章 CUDA数据并行执行模型

第四章数据并行执行模型《大规模并行处理器编程实战》学习，其他章节关注专栏 CUDA C线程组成线程块，线程块组成线程网格，线程网格就是kernel。

数据

线程组

矩阵乘法

卷积

像素点

原创 2021-09-16 17:35:08 868 阅读

CUDA C编程向量加法-第3章 CUDA 简介

第3章 CUDA 简介《大规模并行处理器编程实战》学习，其他章节关注专栏 CUDA C CUDA C 编程友情链接：第三章 CUDA 简介-CUDA C编程向量加法第四章 CUDA数据并行执行模型第五章 CUDA 存储器第六章 CUDA性能优化（内附原书链接）核函数：CUDA编程入门（一）-以图片运算看线程的组织和核函数的使用拓展：CUDA卷积计算及其优化——以一维卷积为例这

GPGPU

多线程

数据

卷积

核函数

原创 2021-09-14 13:46:42 629 阅读

第六章 CUDA性能优化

第六章性能优化《大规模并行处理器编程实战》学习，其他章节关注专栏 CUDA C6.1 WARP 和线程执行由于 SM（Streaming Multiprocessor）中实际由多个流处理单元（Streaming Processor, SP）进行单指令、多数据（SIMD）模式的执行，因此将线程块划分为 warp，方便调度给不同的 SP 执行。一般 warp 是 32 个线程。在将线程划分时，按照多维数组变一维数组的映射进行32个线程的转化划分。如果是三维，则先对 threadIdx.z=0

数据

卷积

性能优化

核函数

迭代

原创 2021-09-13 17:38:22 1436 阅读

CUDA 编程入门-GPU信息读取

#include "cuda_runtime.h"#include "device_launch_parameters.h"#include <stdio.h>void myDeviceInfo();int main(){ // mykernel <<<1, 10 >>> (); myDeviceInfo(); cudaDeviceSynchronize(); return 0;}void myDevic.

#include

i++

CUDA

原创 2021-09-13 17:38:21 492 阅读

CUDA卷积计算及其优化——以一维卷积为例

CUDA 卷积计算及其优化——以一维卷积为例CUDA C 编程学习，关注专栏 CUDA C建议阅读：在卷积优化前，熟悉核函数的组织形式有利于更好的位置映射-CUDA编程入门（一）：以图片运算看线程的组织和核函数的使用对于输入数据为N[Width]，卷积核大小为M[Mask_Width]的卷积运算，进行不同程度的优化（这里的卷积指滤波/内积，而不需要旋转），输出为P[Width]。1.常规的一维卷积常规的一维卷积比较简单，线程数为Width，每个线程负责一个输出值得Mask_Width宽度的卷积

分块

加载

卷积