老年代 CMS gc回收算法对hbase的影响

原创

马吉辉 2019-04-02 17:58:12 博主文章分类：hbase gc系列 ©著作权

文章标签 gc对hbase的影响产生full gc的两种模式 Concurrent Failure Promotion Failure 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者马吉辉的原创作品，请联系作者获取转载授权，否则将追究法律责任

老年代 CMS gc回收算法对hbase的影响*****

参考链接：深入研究java gc https://blog.51cto.com/12445535/2372976 CMS失败模式（CMS Failure Mode） 1、上文提到在正常的情况下CMS整个流程的暂停时间都是很短的，一般也就在10ms～100ms左右。 2、然而这与线上的情况并不相符，线上集群在读写压力很大的情况下，经常会出现长时间的卡顿，有些卡顿甚至长达几分钟，导致很严重的读写阻塞，甚至会造成Region Server和Zookeeper之间Session超时，使得Region Server异常离线。 3、实际上，CMS并不是很完美，它会在两种场景下产生严重的Full GC（Concurrent Failure(并发失败)，Promotion Failure （促销失败）），接下来分别进行介绍。

Concurrent Failure(并发失败) 为什么会出现并发失败？ 1、假如现在系统正在执行CMS回收老生代空间，在回收的过程中新生代来了一批对象进来，不巧的是，老生代已经没有空间再容纳这些对象了。 2、这种场景下，CMS回收器会停止继续工作，系统进入 ’stop-the-world’ 模式，并且回收算法会退化为单线程复制算法，重新分配整个堆内存的存活对象到S0中，释放所有其他空间。很显然，整个过程会非常’漫长’。解决方法： JVM提供了参数-XX:CMSInitiatingOccupancyFraction=N来设置CMS回收的时机，其中N表示当前老生代已使用内存占新生代总内存的比例，该值默认为68，可以将该值修改的更小使得回收更早进行。 //cdh中默认值为70 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=70 表示老年代堆空间的使用率

Promotion Failure （促销失败） 1、假设此时设置XX:CMSInitiatingOccupancyFraction＝60，但是在已使用内存还没有达到总内存60%的时候，已经没有空间容纳从新生代迁移的对象了。 2、oh，my god！怎么会这样？罪魁祸首就是内存碎片，上文中提到CMS算法会产生大量碎片，当碎片容量积累到一定大小之后就会造成上面的场景。 3、这种场景下，CMS回收器一样会停止工作，进入漫长的 ’stop-the-world’ 模式。 4、JVM也提供了参数 -XX: UseCMSCompactAtFullCollection来减少碎片的产生，这个参数表示会在每次CMS回收垃圾之后执行一次碎片整理，很显然，这个参数会对性能有比较大的影响，对HBase这种对延迟敏感的业务来说并不是一个完美解决方案。 //-XX: UseCMSCompactAtFullCollection 此参数，在cdh中默认没有

1、在实际线上环境中，很少出现Concurrent Failure模式的Full GC，大多数Full GC场景都是Promotion Failure。 2、我们线上集群也会每隔半个月左右就会因为Promotion Failure触发一次Full GC。 3、为了更好地理解CMS策略下内存碎片是如何触发Promotion Failure，接下来我们做一个简单的实验： 4、JVM提供了参数 -XX:PrintFLSStatistics=1来打印每次GC前后内存碎片的统计信息，统计信息主要包括3个维度：Free Space、Max Chunk Size和Num Chunks， 5、其中Free Space表示老生代当前空闲的总内存容量， 6、Max Chunk Size表示老生代中最大的内存碎片所占的内存容量大小， 7、Num Chunks表示老生代中总的内存碎片数。 8、我们在测试环境集群（共4台Region Server）将这个参数设置为1，然后使用一个客户端YCSB执行Read-And-Write操作，分别统计日志中Free Space和Max Chunk Size两个指标随时间的变化情况。小结：可以知道：CMS GC会不断产生内存碎片，当碎片小到一定程度之后就会基本维持不变，如果此时业务写入一些单条数据量很大的KeyValue，就有可能触发Promotion Failure模式Full GC。

参考链接： http://hbasefly.com/2016/05/21/hbase-gc-1/