原先的torch+cuda环境在运行loss.backward()时跑崩溃了,没有找到合适的解决办法,所以打算重新配置一个环境。

已有的软件基础 anaconda,Jupyter Notebook,主要总结一下踩过的坑

还用了pycharm的terminal来安装包,用anaconda的命令行也可以,但是我习惯于用pycharm

还有用到了vscode运行jupyter,感觉配色好看一些

  1. 在pycharm中新建环境,我选择anaconda的python3.6环境
    也可以用命令行建立新环境,命名为5tsp conda create -n 5tsp python=3.6
  2. 在环境中安装pytorch
    本人cuda版本为11.2,所以按道理只要比11.2低的版本都可以安装
    发现torch新版本如1.9.0 1.8.0这类的版本安装包过大
    容易安装不上,或者安装结束时死机,亲测用pycharm的命令行比anaconda自带命令行成功率高一些,不过也会卡死,而且开始时候1.9.0好不容易装上了,但是遇到了个报错
    name '_C' is not defined
    找了一圈办法没解决,所以最后选择装了低版本,torch1.7.1 conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=11.0 -c pytorch 如果安装高版本,需要防止安装过慢而超时 pip --default-timeout=100 install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=11.1 -c pytorch -c conda-forge
  3. jupyter上配置新内核
    首先转入设定环境,5tsp为环境名称conda activate 5tsp然后安装库ipykernelconda install ipykernel然后添加新环境名称python -m ipykernel install --name  5tsp上面这些办法这里可能遇到很多问题,其中一个是动态库无法连接的问题

jupyterhub 分配GPU资源 jupyter cuda_pytorch

上网查到这个方法是可行的

另一个问题是安装之后打开jupyter运行就报错的问题,报错信息大概是Bad file descriptor (D:\bld\zeromq_1605919615529\work\src\epoll.cpp:100)

找到的问题是pyzmq的版本不对,这个困扰了我很长时间,方法就是先卸载,再重装低版本

pip uninstall pyzmq pip install pyzmq==19.0.2

安装之后可能会报错

cannot import name '_future'

遇到这个问题,我就是再重装一下pyzmq,不知道为啥就解决了。