001 - osd磁盘超过95%后集群不可读写-调整权重进行reblance

#背景:三节点ceph集群某个osd打满之后>95%,影响ceph使用
#获取当前ceph集群osd信息命令:
ceph osd df  #获取当前集群osd列表,权总,与使用率等信息
ceph osd tree  #获取当前集群osd 物理位置,权重等信息
 
#reblance操作:
ceph osd reweight osd.{ osd number } { WEIGHT }  #示例:ceph osd reweight osd.5 0.8
 
#之后等待集群同步完成,初期比较慢,后期会快很多。
#同步完成后将osd权重修改会1.0
ceph osd reweight osd.5 1.0

002 - ceph集群节点宿主机重启操作步骤

#背景:osd满了之后,由于使用rbd本地挂载的方式使用,目前已经打开的文件链接无法中断,进程变为被主进程1接管的僵尸进程,只能通过重启解决。
#首先停止ceph集群自动化恢复的相关配置:
ceph osd set noout
ceph osd set norecover
ceph osd set norebalance
ceph osd set nobackfill
ceph osd set nodown
ceph osd set pause
 
#停止osd进程
 systemctl list-units --type=service | grep ceph  #常看当前节点ceph进程,按照osd  mon 其他的顺序停止进程
 
#命令示例
systemctl disable ceph-osd@6.service
 
#重启服务器
shutdown -r now
 
#恢复ceph相关配置:
ceph osd unset noout
ceph osd unset norecover
ceph osd unset norebalance
ceph osd unset nobackfill
ceph osd unset nodown
ceph osd unset pause