win10+vs2019+cuda10.2+pycuda开发环境的搭建和测试

为了学习CUDA+python ,在自己笔记本呢搭建pycuda环境,没想到踩了如此多的坑,所以,记录一下。

一、安装步骤

1.Anaconda-python

anaconda会提供一些常用的工具包,在它下面运行python会比较方便(LCX语)。从官网下载安装包默认安装即可,建议在安装时将它添加到环境变量中方便使用。

下载官网 https://www.anaconda.com/distribution/#download-section,版本根据需要选择,这里我选择的是Python3.7版本,具体的安装步骤这里不做赘述。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9H1dxDzI-1586685180264)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412155927851.png)]

2.Visual Studio 2019

因为后续的安装需要VC++的支持,看网上的版本大多数使用的2017,甚至是2015版本,头铁的我这里使用的最新的2019版本,VS2019下载地址]()。

因为我已经安装2019,这里的图片是参考的是安装2017专业版的,大同小异,值得注意的是需要勾选红色框中的VC++ 2015这个运行库

怎么在python代码中使用cuda python cuda_visual studio

3.CUDA &CUDNN

3.1cudnn 和 cuda Toolkit 下载安装

深度神经网络库CUDNN https://developer.nvidia.com/cudnn下载好,后续需要。

cuda下载地址

下载版本如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3cIYgmPO-1586685180266)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412163526600.png)]

CUDA会自动配置一些环境变量,还有一些需要手动配置。
环境变量中添加:

环境变量自动添加如下

CUDA_PATH = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2
CUDA_PATH_V10_2 = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2

环境变量中需要自己添加如下:

CUDA_LIB_PATH = %CUDA_PATH%\lib\x64 
CUDA_BIN_PATH = %CUDA_PATH%\bin 
CUDA_SDK_PATH = C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2
CUDA_SDK_BIN_PATH = %CUDA_SDK_PATH%\bin\win64 
CUDA_SDK_LIB_PATH = %CUDA_SDK_PATH%\common\lib\x64

Path中添加:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\lib\x64
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\include
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\extras\CUPTI\lib64
C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2\bin\win64
C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2\common\lib\x64

将CUDNN下的bin include lib三个文件夹添加到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2下面的bin include lib中,实际上只是将CUDNN的三个文件添加到目录下。

3.2验证CUDA安装

nvcc -V验证

打开命令窗口cmd,输入验证命令 nvcc -V

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QAOdS3qa-1586685180267)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412165252148.png)]

bandwidthTest.exe和deviceQuery.exe验证

进入命令提示符窗口,然后进入C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\extras\demo_suite路径下,运行bandwidthTest.exe命令,结果如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TWskIxhC-1586685180267)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412170304437.png)]

同上运行deviceQuery.exe结果如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XAn7G7vJ-1586685180268)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412170607066.png)]

此时确认都出现了Result = PASS,即CUDA 安装成功了。

4.pycuda

可以通过 conda install pycuda 和pip install pycuda进行安装,此处前者报错,后者可以。具体可能是Aconda对pycuda的支持不够。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3inloT7y-1586685180269)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412171305706.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MO9gXxLK-1586685180269)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412171401129.png)]

这里,我已经安装过了。

**注意:**在安装pycuda之前,需要确认前面的步骤安装正确,因为pycuda 依赖于前者,不然会安装报错。

二、测试pycuda

此处利用

在Jupyter notebook 上进行演示:

在你使用PyCuda之前,要先用import命令初始化。

import pycuda.autoinit
import pycuda.driver as drv
import numpy

from pycuda.compiler import SourceModule

调用pycuda.compiler.SourceModule:

mod = SourceModule("""
__global__ void multiply_them(float *dest, float *a, float *b)
{
  const int i = threadIdx.x;
  dest[i] = a[i] * b[i];
}
""")

这里的threadIDx是CUDA C语言的内置变量,这里借此确定了a,b数组所在的位置,然后通过指针对数组a,b中每一个元素进行了乘积的得到新的数组dest

我运行这个遇到了如下报错:

nvcc fatal   : Cannot find compiler 'cl.exe' in PATH

参考

添加了path 变量

INCLUDE = C:\Program Files (x86)\Windows Kits\10\Include\10.0.10240.0\ucrt
LIB = C:\Program Files (x86)\Windows Kits\10\Lib\10.0.10240.0\um\x64
      C:\Program Files (x86)\Windows Kits\10\Lib\10.0.10240.0\ucrt\x64

解决了问题。

**注意:**将cl.exe的路径添加到环境变量的path中然后重启计算机(重启才会生效)

multiply_them = mod.get_function("multiply_them")

multiply_them(
        drv.Out(dest), drv.In(a), drv.In(b),
        block=(400,1,1), grid=(1,1))

这一步如果没有出错,就说明这段代码已经编译成功,并且加载到显卡中了。然后咱们可以使用一个到咱们这个pycuda.driver.Function的引用,然后调用此引用,把显存中的数组a_gpu作为参数传过去,同时设定线程块(block)大小为400x1,,网格(grid)为1:

a = numpy.random.randn(400).astype(numpy.float32)
b = numpy.random.randn(400).astype(numpy.float32)

dest = numpy.zeros_like(a)
print dest-a*b

生成随机数组带入计算后,得到结果如下:

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

至此,验证pycuda 可以正常使用,可以开始学习了。