超算中心计算机集群使用简介.ppt

中科院近代物理研究所超算中心计算机集群使用简介 一:集群硬件基本情况的介绍 基本情况如下,其中集群一是联想深腾7000G。四套集群统一使用Infiniband&1000M的交换机。 IP及端口 计算节点配置 其他说明 集群一 210.77.75.161:22 Xeon E5504,2GB,500GB, 2*TeslaC1060*100 可以同时运行200个CUDA程序 集群二 210.77.75.162:22 Intel E6600,2GB,160GB 15个四核可用节点,可以跑60个串行程序 集群三 210.77.75.167:22 Intel E6600,2GB,160GB 22个四核可用节点,可以跑88个串行程序 二:软件说明 (1)系统软件: 客户端需要使用的软件有PieTTY和WinSCP。PieTTY是在windows下远程登陆Linux系统的客户端软件,可切换多种 Unicode 字符显示方式,提供简易 scp 上传界面。WinSCP是一个支持SSH的SCP文件传输软件。只要文件主机支持SSH协定,就可以安心的下载、上传文件。在WinSCP中,一般的文件操作都没有问题,如:复制、移动、更名文件或文件夹等 。 PieTTY登陆界面 在使用客户端软件之前,首先需要了解Linux下一些基本操作的命令。 who,显示登录用户信息 pwd ,查看当前路径 ls,列出目录信息 Help,提供内部命令的帮助 cat,显示文件内容 cd,改变目录路径 cp,复制文件 find,查找文件 grep,搜索、过滤信息 more,分页显示 vi,调用vi文本编辑器 rm,删除文件或目录 如果不清楚用法,可以使用help命令输出帮助信息,在options 里有可选参数。 WinSCP登陆界面 作业提交系统Torque的使用 PBS(Portable Batch System)是功能最为齐全, 历史最悠久, 支持最广泛的本地集群调度器之一 ,用于灵活的批处理,特别是满足高性能计算的需要,如集群系统、超级计算机和大规模并行系统。 PBS的主要特点有:代码开放,免费获取;支持批处理、交互式作业和串行、多种并行作业 。应用PBS提交任务则会形成任务队列,依次执行,有效分配资源,避免资源竞争。否则CPU时间片会轮流分配给各个人的任务,从而影响所有人的正常作业。 我们使用的作业调度系统torque是PBS目前的主要分支之一。下面介绍如何在我们的集群上使用PBS提交作业: 1.首先检查一下节点状态,查看是否可以提交作业 [test@server ~]$ pbsnodes –a 返回free即表示可以提交作业。 2.提交作业:qsub pbsjob作业提交后会有一个作业号,例如: [test@server ~]$ qsub config.sh12.server.cluster 注:提交作业时用户自己生成的文件名不能包含空格,否则任务提交之后不能运行。 3.查询作业:qstat [test@server ~]$ qstat Job id? ?? ?? ?? ?? ?? ???Name? ?? ?? ?? ? User? ?? ?? ?? ?Time Use S Queue ------------------------- ---------------- --------------- -------- - ----- 12.server? ?? ?? ?? ?? ???test? ?? ?? ?? ? test? ?? ?? ?? ?? ?? ? 0 C batch? ??解释:job id是提交的任务的分配任务号,S(任务状态,R 表示正在运行,Q 表示正在排队等候调度,C表示作业已经完成) 4.删除作业:qdel 作业号 [test@server ~]$ qdel 12 config.sh 脚本说明 #!/bin/bash#PBS?-N?test #任取一作业任务名test #PBS?-r n #指明作业是否可运行,y 为可运行,n 为不可运行 #PBS?-q?batch #当前任务选用的队列#PBS?-l?walltime=2880:00:00 #任务最大时限 cd $PBS_O_W