写在前面的话
读者您好,本人目前同时在经营CSDN和微信公众号,希望小伙伴们能够给予支持,关注一下我的微信公众号,公众号是每天都会推送新文章,CSDN不定期发表新文章。
文末有公众号二维码,可以扫码关注,或者微信直接搜索“波波Tea”,带哪吒头像的那个就是我,谢谢!
垃圾收集算法的实现涉及大量的程序细节,且各个平台的虚拟机操作内存的方法都有差异,本文暂不过多讨论算法实现,只重点介绍分代收集理论和几种算法思想及其发展过程。
1、分代收集理论
当前商业虚拟机的垃圾收集器,大多数都遵循了“分代收集”的理论进行设计,它建立在两个分代假说之上:
-
弱分代假说:绝大多数对象都是朝生夕灭的
-
强分代假说:熬过越多次垃圾收集过程的对象就越难以消亡
这两个分代假说共同奠定了多款常用的垃圾收集器的一致的设计原则:
-
收集器应该将Java堆划分出不同的区域
-
然后将回收对象依据其年龄(年龄即对象熬过垃圾收集过程的次数)分配到不同的区域之中存储
-
如果一个区域中大多数对象都是朝生夕灭,那么把它们集中放在一起,就能以较低代价回收到大量的空间
-
如果剩下的都是难以消亡的对象,那把它们集中放在一块,虚拟机便可以使用较低的频率来回收这个区域
-
这就同时兼顾了垃圾收集的时间开销和内存的空间有效利用
在Java堆划分出不同的区域之后,垃圾收集器才可以每次只回收其中某一个或者某些部分的区域,因而才有了
-
Minor GC
-
Major GC
-
Full GC
这样的回收类型的划分;也才能够针对不同的区域使用相匹配的垃圾收集算法,因而发展出了
-
标记-复制算法
-
标记-清除算法
-
标记-整理算法
等针对性的垃圾收集算法。
1.1、分代假说存在什么问题?
但是分代收集并非只是简单划分一下内存区域那么容易,它至少存在一个明显的困难:对象不是孤立的,对象之间会存在跨代引用。
假如现在只进行一次新生代收集(Minor GC),但新生代中的对象是完全有可能被老年代所引用的,为了找出该区域中的存活对象,不得不在固定的GC Roots之外,再额外遍历整个老年代中所有对象来确保可达性分析结果的正确性,反过来也是一样。
遍历整个老年代所有对象的方案虽然理论上可行,但无疑会为内存回收带来很大的性能负担,为了解决这个问题,就需要对分代收集理论添加第三条经验法则:
-
跨代引用假说:跨代引用相对于同代引用来说仅占极少数。
1.2、如何解决?
存在互相引用关系的两个对象,是应该倾向于同时生存或者同时消亡的。举个例子,如果某个新生代对象存在跨代引用,由于老年代对象难以消亡,该引用会使得新生代对象在收集时同样难以消亡,进而在年龄增长之后晋升到老年代中,这时跨代引用也随即被消除了。
因此,我们就不应再为了少量的跨代引用去扫描整个老年代,也不必浪费空间专门记录每一个对象是否存在及存在哪些跨代引用,只需在新生代上建立一个全局的数据结构(该结构被称为记忆集”),这个结构把老年代划分成若干小块,标识出老年代的哪一块内存会存在跨代引用。此后当发生Minor GC时,只有包含了跨代引用的小块内存里的对象才会被加入到GC Roots进行扫描。虽然这种方法需要在对象改变引用关系时维护记录数据的正确性,会增加一些运行时的开销,但比起收集时扫描整个老年代来说仍然是划算的。
部分收集(Partial GC)又分为:
-
新生代收集(Minor GC/Young GC):只收集新生代
-
老年代收集(Major GC/Old GC):只收集老年代。目前只有CMS收集器会有单独收集老年代的行为,Major GC这个说法现在有点混淆,需按上下文区分到底是指老年代的收集还是整堆收集
混合收集(Mixed GC):收集整个新生代以及部分老年代,目前只有G1收集器会有这种行为
整堆收集(Full GC):收集整个Java堆和方法区
2、标记清除法
最早出现也是最基础的垃圾收集算法是标记-清除(Mark-Sweep)算法,分为“标记”和“清除”两个阶段:
-
首先标记出所有需要回收的对象
-
在标记完成后,统一回收掉所有被标记的对象
-
也可以反过来,标记存活的对象,统一回收所有未被标记的对象
标记过程就是对象是否属于垃圾的判定过程。
之所以说它是最基础的收集算法,是因为后续的收集算法大多都是以标记-清除算法为基础,对其缺点进行改进而得到的。它的主要缺点有两个:
-
执行效率不稳定,如果Java堆中包含大量对象,而且其中大部分是需要被回收的,这时必须进行大量标记和清除的动作,导致标记和清除两个过程的执行效率都随对象数量增长而降低
-
内存空间的碎片化问题,标记、清除之后会产生大量不连续的内存碎片
3、标记复制法
3.1、标记复制法的思想和优缺点
为了解决标记清除算法面对大量可回收对象时执行效率低的问题,它将可用内存按容量划分为大小相等的两块,每次只使用其中的一块,当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。
如果内存中多数对象都是存活的,这种算法将会产生大量的内存间复制的开销,但对于多数对象都是可回收的情况,算法需要复制的就是占少数的存活对象,而且每次都是针对整个半区进行内存回收,分配内存时也就不用考虑有空间碎片的复杂情况,只要移动堆顶指针,按顺序分配即可。这样实现简单,运行高效。
其缺陷也显而易见,这种复制回收算法的代价是将可用内存缩小为了原来的一半,空间浪费未免太多了一点。
3.2、HotSpot虚拟机的具体实现
HotSpot虚拟机默认Eden和Survivor的大小比例是8∶1,也即每次新生代中可用内存空间为整个新生代容量的90%(Eden的80%加上一个Survivor的10%)。当Survivor空间不足以容纳一次Minor GC之后存活的对象时,就需要依赖其他内存区域(实际上大多就是老年代)进行分配担保,这些对象便将通过分配担保机制直接进入老年代,这对虚拟机来说就是安全的。
3.3、标记复制法的具体步骤
-
首先,当Eden区满的时候会触发第一次GC,把还活着的对象拷贝到SurvivorFrom区,当Eden区再次触发GC的时候会扫描Eden区和From区域,对这两个区域进行垃圾回收,经过这次回收后还存活着的对象,则直接复制到To区域(如果有对象的年龄已经达到了老年的标准,则赋值到老年代区),同时把这些对象的年龄 + 1
-
然后,情况Eden和SurvivoFrom中的对象,也即复制之后有交换,谁空谁是To
-
SurvivorTo和SurvivorFrom互换
-
最后,SurvivoTo和SurvivorFrom互换,原SurvivorTo成为下一次GC时的SurvivorFrom区。部分对象会在From和To区域中复制来复制去,如此交换15次(由JVM参数MaxTenuringThreshold决定,这个参数默认是15),最终如果还是存活,就存入老年代
4、标记整理法
4.1、标记清除法的思想
标记复制算法在对象存活率较高时就要进行较多的复制操作,效率将会降低。更关键的是,如果不想浪费50%的空间,就需要有额外的空间进行分配担保,以应对被使用的内存中所有对象都100%存活的极端情况,所以在老年代一般不能直接选用这种算法。
针对老年代对象的存亡特征,标记整理法其中的标记过程仍然与标记清除算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向内存空间一端移动,然后直接清理掉边界以外的内存,如下图所示。
4.2、标记整理法的优缺点
标记清除算法与标记整理算法的本质差异在于前者是一种非移动式的回收算法,而后者是移动式的。是否移动回收后的存活对象是一项优缺点并存的风险决策:
-
如果移动存活对象,尤其是在老年代这种每次回收都有大量对象存活区域,移动存活对象并更新所有引用这些对象的地方将会是一种极为负重的操作,而且这种对象移动操作必须全程暂停用户应用程序才能进行,这就更加让使用者不得不小心翼翼地权衡其弊端了。
-
但如果跟标记清除算法那样完全不考虑移动和整理存活对象的话,弥散于堆中的存活对象导致的空间碎片化问题就只能依赖更为复杂的内存分配器和内存访问器来解决。内存的访问是用户程序最频繁的操作,甚至都没有之一,假如在这个环节上增加了额外的负担,势必会直接影响应用程序的吞吐量。
基于以上两点,是否移动对象都存在弊端。
-
从垃圾收集的停顿时间来看,不移动对象停顿时间会更短,甚至可以不需要停顿
-
但是从整个程序的吞吐量来看,移动对象会更划算
HotSpot虚拟机里面关注吞吐量的Parallel Scavenge收集器是基于标记整理算法的,而关注延迟的CMS收集器则是基于标记清除算法的。另外还有一种“和稀泥式”解决方案,做法是让虚拟机平时多数时间都采用标记清除算法,暂时容忍内存碎片的存在,直到内存空间的碎片化程度已经大到影响对象分配时,再采用一次标记整理法,前面提到的基于标记清除法的CMS收集器面临空间碎片过多时采用的就是这种处理办法。