大致环境为480个IBM HS20刀片的计算节点,20台X366 IO节点,2个管理节点。
计算节点系统为:RedHat Enterprise Linux AS 3.0 update6。
1:xcat安装的前提条件
LINUX要完全安装,至少要有两块网卡,一块进行管理,一块进行计算应用 XCAT有包含四个安装包
xcat-dist-core-1.2.0-RC3.tgz
xcat-dist-doc-1.2.0-RC3.tgz
xcat-dist-ibm-1.2.0-RC3.tgz
xcat-dist-oss-1.2.0-RC3.tgz

(参考文档:xcat-HOWTO.html,xcat-mini-HOWTO.html,在xcat.org上有)

2:cd /opt tar xcat 的四个软件包
tar -xvf /tmp/xcat-dis-core-1.2.0.tar.gz

3:setup xcat
export xcatroot=/opt/xcat
cd $xcatroot/sbin
./setupxcat

4:logout and begin is as root

5:enable time services (xntpd) on management note
mv -f /etc/ntpconf /etc/ntp.conf.or1g
create a new /etc/ntp.conf
server 127.127.1.0
fudge 127.127.1.0 stratum 10
driftfile /etc/drift
同步所有节点的时间,时间服务器
red hat:settime,date,and time zone with setup
setup or date
setclock or hwclock -w
chkconfig -level 345 ntpd on
service ntpd restart


xcat 相关配置文件
/opt/xcat/etc
site.tab //集群所有配置信息
nodehm.tab
nodelist.tab
nodepos.tab
noderes.tab
passwd.tab
postscripts.tab
postdeps.tab
snmptrapd.conf
nettworks.tab
mac.tab
mpa.tab(刀片中心管理模块类型)
mp.tab
apc.tab
apcp.tab
nodemodel.tab
nodehm.tab 所有节点硬件配置
noderes.tab   机器安装信息
nodetype.tab 节点类型,操作系统
/etc/hosts文件最重要
定义所有机器的IP地址及名称
重启系统后
xcatd   服务能启动,说明了xcat基本正常
makedns   - build a dns server
解析机器及机器地址(根据/etc/hosts 文件)
host 机器名
host IP地址
都能解析,说明makedns已经好
makedhcp   --new   --allmac

getmacs   命令可以搜集机器的两个网卡地址
rpower   noderage start(还有三个参数 on,off,boot)
安装计算节点的os

copycds   (follow prompts)   //拷贝安装文件到install目录,放入光盘自动拷贝
cd /opt/xcat
find post -print |ccpio -dump /install
genesshkeys root (generate root ssh keys)   所有群集用户同步,取消密码登录
update   /etc/exports with /install,restart nfs
echo "/install * (ro,async,no_root_squash)">>/etc/exports
red hat:
chkconfig --add nfs
service nfs restart
suse:
chkconfig nfs restart

node set   安装
nodeset compute install(设置成安装状态)
更改文件   /install/scripts/compute_all 文件
-EVELY (安装所有文件包)
compute_all文件可以使用 nodeset compute install 生成,每次运行这个命令后,都会把原来的文件覆盖

如果某个节点坏了
1:需要从管理中心上登录到这个节点,改机器名,改启动顺序
2:更改mac.tab 对应节点的地址
3:makedhcp --new 机器名
4: makedhcp 节点名
5:nodeset 节点名 install(先备份原来的compute_all文件)
6:开机安装os
7:安装完成后,执行   makesshgkh 节点名 //Update the SSH Global Known Hosts File


==================
第二部分:性能的测试

计算结果的文件位于:em64t_goto\data目录下
简单写一下测试的步骤:
cd bench/hpl/bin/em64t_goto/
配置 HPL.dat文件,以及配置测试使用的节点配置文件,如:hf.rack01
hf.rack01文件配置了节点的数量及使用节点的CPU数量
如:
r01b01n01:2 //节点1,使用2个CPU
mpirun --nolocal -machinefile ./hf.rack01 -np 160 ./xhpl   //测试的命令,160是指定CPU数量

计算公式:
计算结果/3.4(主频)*2(CPU数)*2F(一个时钟2次浮点运算)*节点数