处理stale的pg

原创

zphj1987 2016-11-14 17:55:00 博主文章分类：存储相关 ©著作权

文章标签 其他 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者zphj1987的原创作品，请联系作者获取转载授权，否则将追究法律责任

前言

在某些场景下Ceph集群会出现stale的情况，也就是ceph集群PG的僵死状态，这个状态实际上是无法处理新的请求了，新的请求过来只会block，那么我们如何去恢复环境

首先模拟stale环境，这个比较好模拟

设置副本2，然后同时关闭两个OSD（不同故障域上），然后删除这两个OSD

集群这个时候就会出现stale的情况了，因为两份数据都丢了，在一些环境下，数据本身就是临时的或者不是那么重要的，比如存储日志，这样的环境下，只需要快速的恢复环境即可，而不担心数据的丢失

首先用ceph pg dump|grep stale 找出所有的stale的pg

然后用 ceph force_create_pg pg_id

如果做到这里，可以看到之前的stale的状态的PG，现在已经是creating状态的了，这个时候一个关键的步骤需要做下

就是重启整个集群的OSD，在重启完成了以后，集群的状态就会恢复正常了，也能够正常的写入新的数据了，对于老的数据，做下清理即可

Why	Who	When
创建	武汉-运维-磨渣	2016-11-14

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯