由于学校的深度学习任务都是上传的学校的GPU集群上运行,因此可视化和调试程序就变的十分麻烦,几经辗转、终于找到了解决方案,即通过ssh隧道的方式,用Pycharm通过跳板机连接内网服务器。现在此总结一下。
目前我们学校的集群结构是一个三级结构,如果你们也是,那下面的方法多半是可以用的。
1.首先配置登陆
1.1 修改本地host文件
首先大家都知道自己的跳板机的账号,可以写到host中,这样就不用每次都输入ip了,host文件在windows系统下的位置如下所示:
C:\Windows\System32\drivers\etc\hosts
host 文件的格式:IP 名称
1.2 配置xshell 软件
新建一个链接
名称: 跳板test
主机名:jiqun
【刚才已经配置好host了可以直接输入jiqun】
接下里来点击“用户身份验证”按钮,输入你的用户名和密码,配置之后以后就不用每次输入了
配置完成后,进行登陆测试,如果能够顺利登上,表示前面的配置没问题
1.3 获取你要链接的GPU节点的地址
输入命令,复制你需要的节点地址到本地pc的host文件中
cat /etc/hosts
在本地pc的host文件中添加
到此,登陆的配置工作结束~
2.配置隧道
编辑刚刚在xshell中配置的“跳板test” 。右击->属性
点击隧道按钮,然后点击添加
特别注意
源主机名是localhost,端口号是6000
目的主机名是node06 端口号是22
然后点击“用户身份验证” 输入账号密码,和之前的步骤一样
配置完成后尝试连接!【首次链接时间可能会有点长】
出现如下界面登陆成功!
3.配置pycharm
3.1配置项目文件的python 解释器
在pycharm中依次点击文件->设置,然后完成如下5步,注意Host 是localhost
输入密码 【这步可能会卡顿,如果出错,建议多试几次】
配置解释器的对应文件地址,建议在集群上创建一个和本地文件同名的文件夹,用于映射项目文件
到这里我们就配置完成啦,看到如下内容,表示配置成功。
3.2 配置文件同步
到这里,文件同步配置完成
4 测试远程调试
如果你的代码带有参数,可以使用如下方式添加参数
下面打个断点,进行调试
以上就是全部内容了,有问题随时评论,看到必回~,欢迎交流