故障表现

Web管理后台发现告警,如下图所示:
Proxmox VE 磁盘故障排查
Pve40这个节点的某个盘down掉了。

问题排查

ssh登录pve40这个机器所在的系统,执行df –h查看磁盘挂接情况,得到如下输出:
Proxmox VE 磁盘故障排查
通过挂接点名称(ceph-13)与故障osd的id相对照,可以准确无误的判断出物理磁盘/dev/sdc出现了故障。

修复尝试

在告知其它人发生故障以后,并确认故障处理不会导致任何负面作用的情况下,先试着从web管理界面选取故障osd,然后点击“启动”按钮尝试启动,但是很遗憾,不能获得成功。

再次回答系统命令行,执行ceph osd tree确认故障是否与web管理界面所变现的相一致。为了不对运维造成压力(其它人员看到有黄色报警,毕竟还是有点别扭,不懂的人还可能会发飙),决定对故障盘离线并进行如下尝试:
1、 df –h 查看一下磁盘是否被挂载
2、 ceph osd out osd.13 离线操作
3、 ceph auth del osd.13 ;ceph osd rm 13;ceph osd crush remove osd.13
4、 wipefs -af /dev/sdc 清空磁盘
5、 ceph-volume lvm zap /dev/sdc 创建ceph卷
6、 web界面尝试重新创建osd。
到最后一步执行创建的时候,界面一直在转圈,点开日志详情,可看到具体的原因,如下图所示:
Proxmox VE 磁盘故障排查
输入输出问题,根据多年的经验,硬盘多半物理损害。修复无望,通知相关人员联系机房,从服务器面板查看指示灯状态,没多久,传来服务器照片。
Proxmox VE 磁盘故障排查
果然亮起了红灯,等着换新硬盘吧。