用gpu跑tensorflow 用gpu跑scenic

转载

蓝色忧郁花 2024-04-03 08:53:05

文章标签 用gpu跑tensorflow OOM cuda NIVIDIA tensorflow 文章分类 机器学习人工智能

win10使用tensorflow和tensorflow-gpu时踩过的坑

最初要使用tensorflow-gpu是因为要使用inception-resnet-v2，这个模型在cpu上跑，速度实在是太慢，两天跑1000个batch的样子，实在难受。于是搬出了我四年前的电脑（NIVIDA 840M）来准备用GPU跑。遇到了一些坑，一一解决了，记录一下。

first

最开始的时候，以为安装了tensorflow就可以直接有gpu就调gpu了，后来发现没那么简单，还是会用cpu的，必须装tensorflow-gpu版本。网上说两个并存会有麻烦，所以建议删了cpu版本再来装gpu版本。

error：CUDA driver version is insufficient for CUDA runtime version

原因

这个的原因是CUDA的驱动程序版本跟CUDA的运行时版本不匹配！看了一下，主要是我直接 conda install tensorflow-gpu来安装的，相应的cudnn和cudatoolkit都会自动下载最新版的，而这些最新版的不一定和自己的gpu匹配，导致错误。

解决

cuda的驱动程序版本即为NVIDIA GPU的驱动程序版本。

这个驱动版本可以通过nvidia-smi来查看，一般windows上这个好像没有直接加入环境变量，直接运行是不行的，一般是在C:\Program Files\NVIDIA Corporation\NVSMI，将其加入环境变量或是直接在目录下运行即可。

用gpu跑tensorflow 用gpu跑scenic_cuda

上图中红线圈出的部分即为自己的driver版本。

接着找到nvidia 驱动和cuda runtime 版本对应关系

运行时版本驱动版本
CUDA 9.1 387.xx
CUDA 9.0 384.xx
CUDA 8.0 375.xx (GA2)
CUDA 8.0 367.4x
CUDA 7.5 352.xx
CUDA 7.0 346.xx

像我的就是8.0，

或者可以直接看控制面板->搜索 NVIDIA->NVIDIA控制面板->帮助->系统信息，就可以看到支持的CUDA版本了。

用gpu跑tensorflow 用gpu跑scenic_OOM_02

然后就是删掉原来装的错误版本cudnn和cudatoolkit，重新安装对应版本：pip/conda install cudatoolkit=8.0

error：NewRandomAccessFile failed to Create/Open

在生成TFrecord文件时出现了这个错误。这个应该是图片的路径有问题，我的是有中文。

error：ResourceExhaustedError: OOM when allocating tensor with shape[128,149,149,32]

[128,149,149,32]的第一个参数表示batch_size的大小，第二三个参数表示图像尺寸，第四个参数表示卷积核个数。
这里出现这种错误的原因时超出内存了，因此可以适当减小batch_size的大小即可解决。

tensorbord 0.0.0.0:6006，网页中打不开

……应该用localhost:6006或者127.0.0.1：6006

tensorboard可视化，no scalar， no image

解决方法：方法一：将cmd的默认路径cd到log文件的上一层，即cd /d E:\MyTensorBoard，之后等号后面直接键入log文件名即可，不需写全路径，即 tensorboard --logdir=logs。方法二：双斜杠，即tensorboard --logdir=E://MyTensorBoard//logs

tensorboard 无法访问此网站

加参数： --host 127.0.0.1

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：opencv 2d人体骨架模型 opencv骨架提取算法函数

下一篇：flink 优雅的关闭进程 flink window aggregate

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯