Java垃圾回收机制(GC策略)
核心:1,哪些是垃圾?【怎么确定这个是垃圾】;2,如何回收垃圾?【怎么更好收垃圾】。
后勤人员来处理【garbage collection-GC】;但是C++需要在实例化对象之后,还需手动进行垃圾回收,就和学校的自带餐盘的食堂一样,吃完饭还需要自己去洗碗筷,收拾一番。
1,哪些是垃圾?
1.1 垃圾分类【你是什么垃圾!】
【鸡肋】一般,所以这里的垃圾也是分层次的,对象都是介于垃圾与非垃圾之间的东西。
备注:假设1表示非垃圾,0表示垃圾,那么这些实例化对象就是属于[0,1]之间的类别。
⑴强引用(StrongReference)【暂时不是垃圾,未来不确定】
使用最普遍的引用。如果一个对象具有强引用,那垃圾回收器绝不会回收它。当内存空间不足,Java虚拟机宁愿抛出OutOfMemoryError错误,使程序异常终止,也不会靠随意回收具有强引用的对象来解决内存不足的问题。
⑵软引用(SoftReference)【当内存不足,将它当成垃圾回收】
如果内存空间不足了,就会回收这些对象的内存。只要垃圾回收器没有回收它,该对象就可以被程序使用。软引用可用来实现内存敏感的高速缓存(下文给出示例)。
软引用可以和一个引用队列(ReferenceQueue)联合使用,如果软引用所引用的对象被垃圾回收器回收,Java虚拟机就会把这个软引用加入到与之关联的引用队列中。
⑶弱引用(WeakReference)【垃圾,由JVM中的垃圾回收器发现并回收】
拥有更短暂的生命周期。在垃圾回收器线程扫描它所管辖的内存区域的过程中,一旦发现了只具有弱引用的对象,不管当前内存空间足够与否,都会回收它的内存。不过,由于垃圾回收器是一个优先级很低的线程,因此不一定会很快发现那些只具有弱引用的对象。
弱引用可以和一个引用队列(ReferenceQueue)联合使用,如果弱引用所引用的对象被垃圾回收,Java虚拟机就会把这个弱引用加入到与之关联的引用队列中。
⑷虚引用(PhantomReference)【空指针垃圾???】
它就和没有任何引用一样【null】,在任何时候都可能被垃圾回收器回收。
虚引用主要用来跟踪对象被垃圾回收器回收的活动。虚引用与软引用和弱引用的一个区别在于:虚引用必须和引用队列 (ReferenceQueue)联合使用。当垃圾回收器准备回收一个对象时,如果发现它还有虚引用,就会在回收对象的内存之前,把这个虚引用加入到与之 关联的引用队列中。
程序可以通过判断引用队列中是否已经加入了虚引用,来了解被引用的对象是否将要被垃圾回收。如果程序发现某个虚引用已经被加入到引用队列,那么就可以在所引用的对象的内存被回收之前采取必要的行动。
①垃圾成因
1 package _3垃圾的分类;
2
3 public class GC1 {//对象失去索引称为垃圾
4 public static void main(String[] args) {
5 ObjString objString = new ObjString("hello");
6 System.out.println(objString);
7 objString = null;
8 System.out.println(objString);
9 }
10 }
11 /*
12 ObjString: hello
13 null
14 */
②主动调用System.gc()进行垃圾空间处理
1 package _3垃圾的分类;
2
3 public class GC2 {//对象失去索引称为垃圾,调用GC处理
4 public static void main(String[] args) {
5 ObjString str = new ObjString("hello");
6 ObjString str1 = new ObjString("world");
7 System.out.println(str);
8 System.out.println(str1);
9 str = null;
10 str1 = null;
11 System.gc();//本质Runtime.getRuntime().gc();
12 }
13 }
14 /*
15 ObjString: hello
16 ObjString: world
17 2垃圾回收
18 1垃圾回收
19 */
③内存空间不足,JVM自动调用GC处理
1 package _3垃圾的分类;
2
3 public class GC3 {//对象失去索引称为垃圾,
4 public static void main(String[] args) {
5 ObjString objString = new ObjString("hello");
6 System.out.println(objString);
7 objString = null;
8 String[] array = new String[1024 * 500];
9 for(int i = 0; i < 1024 * 500; i++) {//系统消耗大量内存,JVM需要进行内存回收
10 for(int j = 'a'; j <= 'z'; j++) {
11 array[i] += (char)j;
12 }
13 }
14 }
15 }
16 /*
17 ObjString: hello
18 1垃圾回收
19 */
④强引用对象,不是垃圾!
1 package _3垃圾的分类;
2
3 public class GC4 {//①强引用,对象有索引存在,不是垃圾
4 public static void main(String[] args) {
5 ObjString objString = new ObjString("hello");
6 System.out.println(objString);
7 System.gc();
8 }
9 }
10 /*
11 ObjString: hello
12 */
⑤软引用对象,内存不足的时候是垃圾,内存足够的时候不是垃圾;depend on内存条件
1 package _3垃圾的分类;
2
3 import java.lang.ref.SoftReference;
4 /*
5 ObjString objString = new ObjString();
6 If(JVM.内存不足()) {
7 objString = null;//将该对象一并转换为垃圾
8 System.gc();
9 }
10 */
11 public class GC5 {//②软引用,当系统内存不足的时候回收
12 public static void main(String[] args) {
13 SoftReference ref = new SoftReference(new ObjString("这是一个软引用实例化对象"));
14 System.out.println(ref.get());
15 // System.gc();
16 String[] array = new String[1024 * 500];
17 for(int i = 0; i < 1024 * 500; i++) {//系统消耗大量内存,JVM需要进行内存回收
18 for(int j = 'a'; j <= 'z'; j++) {
19 array[i] += (char)j;
20 }
21 }
22 }
23 }
24 /*
25 ObjString: 这是一个软引用实例化对象
26 1垃圾回收
27 */
⑥弱引用是垃圾,当JVM垃圾回收的时候进行处理
1 package _3垃圾的分类;
2
3 import java.lang.ref.WeakReference ;
4 /*
5 等同于:
6 ObjString objString = new ObjString();
7 if(JVM触发垃圾回收操作){
8 objString = null;//强制转换为垃圾
9 System.gc();//进行回收
10 }
11 */
12 public class GC6 {//③弱引用,当JVM垃圾回收的时候进行处理
13 public static void main(String[] args) {
14 WeakReference ref = new WeakReference (new ObjString("这是一个弱引用实例化对象"));
15 System.out.println(ref.get());
16 System.gc();
17 }
18 }
19 /*
20 ObjString: 这是一个弱引用实例化对象
21 1垃圾回收
22 */
⑦假象引用,在实例化后就被置空抛弃!!! ,就被终止回收
1 package _3垃圾的分类;
2
3 import java.lang.ref.PhantomReference;
4 import java.lang.ref.ReferenceQueue;
5 /*
6 等同于:
7 ObjString objString = new ObjString();
8 objString = null;
9 */
10 public class GC7 {//④假象引用,在实例化后就被置空抛弃!!! ,就被终止回收
11 public static void main(String[] args) {
12 ReferenceQueue queue = new ReferenceQueue();//假象引用必须和ReferenceQueue联合使用
13 PhantomReference ref = new PhantomReference(new ObjString("这是一个弱引用实例化对象"), queue);
14 System.out.println(ref.get());
15 System.gc();
16 }
17 }
18 /*
19 null
20 1垃圾回收
21 */
1.2 怎么定义垃圾【你是不是垃圾!】
前一小节定义了垃圾分类,这一小结我们来看看【你是不是垃圾】。没有索引不能够被重新使用的对象!系统无法重新复用这个对象了!
这里有两种方法来确定失去索引的对象,是否是垃圾!①引用计数法;②可达性分析法;
1.2.1 引用计数法
引用计数算法(Reachability Counting)是通过在对象头中分配一个空间来保存该对象被引用的次数(Reference Count)。如果该对象被其它对象引用,则它的引用计数加1,如果删除对该对象的引用,那么它的引用计数就减1,当该对象的引用计数为0时,那么该对象就会被回收。
String m = new String("jack");
先创建一个字符串,这时候"jack"有一个引用,就是 m。
图1 引用计数原理图【初始化】
图2 引用计数原理图【索引置空】
但是RC并不等于零,因为他们交织引用了对方。这就造成了本应该是垃圾的对象,无法被判定为垃圾,无法收回!!!
图3 空索引-交织引用
ReferenceGC.java
1 package _1引用计数算法;
2
3 class ReferenceGC{
4 private int counter=0;//对象的索引数
5 public Object Root=null;//操作的对象
6 public Object instance=null;
7 public ReferenceGC(Object object){
8 this.Root=object;
9 }
10 public void add(){//模拟计数器增加
11 this.counter++;
12 }
13 public void sub(){//模拟计数器减少
14 this.counter--;
15 }
16 public int getCounter() {
17 return this.counter;
18 }
19 }
testGC.java
1 package _1引用计数算法;
2
3 public class testGC {
4 public static void main(String[] args) {
5 ReferenceGC a=new ReferenceGC("Obj_A");
6 ReferenceGC b=new ReferenceGC("Obj_B");
7
8 String str1=(String) a.Root;//①对象第一次有索引
9 String str2=(String) b.Root;
10 a.add();
11 b.add();
12 a.instance=b.Root;//②对象互相引用
13 b.instance=a.Root;
14 a.add();
15 b.add();
16 a.Root=null;
17 b.Root=null;
18 a.sub();
19 b.sub();
20 System.out.println("a.instance="+a.instance+",b.instance="+b.instance);
21 System.out.println("a.getCounter()="+a.getCounter()+",b.getCounter()="+a.getCounter());
22 }
23 }
24 /*
25 a.instance=Obj_B,b.instance=Obj_A
26 a.getCounter()=1,b.getCounter()=1
27 */
1.2.2 可达性分析法
可达性分析算法(Reachability Analysis)的基本思路是,通过一些被称为垃圾回收根(GC Roots)的对象作为起点,从这些节点开始向下搜索,搜索走过的路径被称为引用链(Reference Chain),当一个对象到 GC Roots 没有任何引用链相连时(即从 GC Roots 节点到该节点不可达),则证明该对象是不可用的。
图4 可达性分析法
通过可达性算法,成功解决了引用计数所无法解决的问题-“循环依赖”,只要你无法与 GC Root 建立直接或间接的连接,系统就会判定你为可回收对象。那这样就引申出了另一个问题,哪些属于 GC Root。
在 Java 语言中,可作为 GC Root 的对象包括以下4种:
- ①虚拟机栈(栈帧中的本地变量表)中引用的对象
- ②方法区中类静态属性引用的对象
- ③方法区中常量引用的对象
- ④本地方法栈中 JNI(即一般说的 Native 方法)引用的对象
图5 Java内存区域
1、虚拟机栈(栈帧中的本地变量表)中引用的对象
此时的 s,即为 GC Root,当s置空时,localParameter 对象也断掉了与 GC Root 的引用链,将被回收。
StackLocalParameter.java
1 package _2可达性分析算法;
2
3 class StackLocalParameter {
4 public StackLocalParameter(String name){}
5 @Override
6 protected void finalize() throws Throwable {
7 System.out.println("垃圾回收");
8 }
9
10 public static void testGC(){
11 StackLocalParameter s = new StackLocalParameter("localParameter");
12 s = null;
13 }
14 }
TestGC1.java
1 package _2可达性分析算法;
2
3 public class TestGC1 {
4 public static void main(String[] args) {
5 StackLocalParameter.testGC();
6 System.gc();
7 }
8 }
2、方法区中类静态属性引用的对象
s 为 GC Root,s 置为 null,经过 GC 后,s 所指向的 properties 对象由于无法与 GC Root 建立关系被回收。
而 m 作为类的静态属性,也属于 GC Root,parameter 对象依然与 GC root 建立着连接,所以此时 parameter 对象并不会被回收。
MethodAreaStaicProperties.java【其中parameter并没有进行垃圾回收】
1 package _2可达性分析算法;
2
3 public class MethodAreaStaicProperties {
4 public static MethodAreaStaicProperties m;
5 public MethodAreaStaicProperties(String name){}
6 @Override
7 protected void finalize() throws Throwable {
8 System.out.println("垃圾回收");
9 }
10 public static void testGC(){
11 MethodAreaStaicProperties s = new MethodAreaStaicProperties("properties");
12 MethodAreaStaicProperties s1 = new MethodAreaStaicProperties("properties");
13 s.m = new MethodAreaStaicProperties("parameter");
14 s = null;
15 s1 = null;
16 }
17 }
TestGC2.java
1 package _2可达性分析算法;
2
3 public class TestGC2 {
4 public static void main(String[] args) {
5 MethodAreaStaicProperties.testGC();
6 System.gc();
7 }
8 }
3、方法区中常量引用的对象
m 即为方法区中的常量引用,也为 GC Root,s 置为 null 后,final 对象也不会因没有与 GC Root 建立联系而被回收。
MethodAreaStaicProperties1.java
1 package _2可达性分析算法;
2
3 public class MethodAreaStaicProperties1 {
4 public static final MethodAreaStaicProperties1 m = new MethodAreaStaicProperties1("final");//常量索引,无法修改
5 private String name;
6 public MethodAreaStaicProperties1(String name){
7 this.name=name;
8 }
9 @Override
10 protected void finalize() throws Throwable {
11 System.out.println("垃圾回收");
12 }
13 public static void testGC(){
14 MethodAreaStaicProperties s = new MethodAreaStaicProperties("staticProperties");
15 s = null;
16 }
17 }
TestGC3.java
1 package _2可达性分析算法;
2
3 public class TestGC3 {
4 public static void main(String[] args) {
5 MethodAreaStaicProperties1.testGC();
6 System.gc();
7 }
8 }
4、本地方法栈中引用的对象
任何 native 接口都会使用某种本地方法栈,实现的本地方法接口是使用 C 连接模型的话,那么它的本地方法栈就是 C 栈。当线程调用 Java 方法时,虚拟机会创建一个新的栈帧并压入 Java 栈。然而当它调用的是本地方法时,虚拟机会保持 Java 栈不变,不再在线程的 Java 栈中压入新的帧,虚拟机只是简单地动态连接并直接调用指定的本地方法。
图6 调用Java方法和本地方法
2,如何回收垃圾?
上文已经确定标定了垃圾,后续要如何清理呢?【高效、快速、节能】
在确定了哪些垃圾可以被回收后,垃圾收集器要做的事情就是开始进行垃圾回收,但是这里面涉及到一个问题是:如何高效地进行垃圾回收。由于Java虚拟机规范并没有对如何实现垃圾收集器做出明确的规定,因此各个厂商的虚拟机可以采用不同的方式来实现垃圾收集器,这里我们讨论几种常见的垃圾收集算法的核心思想:①标记-清除法;②复制算法;③标记整理算法;④内存模型与回收策略
2.1 标记-清除法
标记清除算法(Mark-Sweep)是最基础的一种垃圾回收算法,它分为2部分,先把内存区域中的这些对象进行标记,哪些属于可回收标记出来,然后把这些垃圾拎出来清理掉。就像上图一样,清理掉的垃圾就变成未使用的内存区域,等待被再次使用。
这逻辑再清晰不过了,并且也很好操作,但它存在一个很大的问题,那就是内存碎片。
上图中等方块的假设是 2M,小一些的是 1M,大一些的是 4M。等我们回收完,内存就会切成了很多段。我们知道开辟内存空间时,需要的是连续的内存区域,这时候我们需要一个 2M的内存区域,其中有2个 1M 是没法用的。这样就导致,其实我们本身还有这么多的内存的,但却用不了。
图7 标记-清除法
优点:简单快捷;缺点:内存碎片化严重
2.2 复制算法
复制算法(Copying)是在标记清除算法上演化而来,解决标记清除算法的内存碎片问题。它将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。保证了内存的连续可用,内存分配时也就不用考虑内存碎片等复杂情况,逻辑清晰,运行高效。
上面的图很清楚,也很明显的暴露了另一个问题,合着我这140平的大三房,只能当70平米的小两房来使?代价实在太高。
图8 复制算法
优点:内存碎片化问题得到部分解决;缺点:内存的有效使用率太低。
2.3 标记整理(清除)算法
标记整理算法(Mark-Compact)标记过程仍然与标记 --- 清除算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向一端移动,再清理掉端边界以外的内存区域。
标记整理算法一方面在标记-清除算法上做了升级,解决了内存碎片的问题,也规避了复制算法只能利用一半内存区域的弊端。看起来很美好,但从上图可以看到,它对内存变动更频繁,需要整理所有存活对象的引用地址,在效率上比复制算法要差很多。
图9 标记-整理-清除算法
优点:解决内存碎片化问题并且内存利用率大大提高;缺点:内存需要不断地变动,效率变低。
2.4 分代收集算法分代收集算法
分代收集算法分代收集算法(Generational Collection)-【GC】严格来说并不是一种思想或理论,而是融合上述3种基础的算法思想,而产生的针对不同情况所采用不同算法的一套组合拳。对象存活周期的不同将内存划分为几块。一般是把 Java 堆分为新生代和老年代,这样就可以根据各个年代的特点采用最适当的收集算法。在新生代中,每次垃圾收集时都发现有大批对象死去,只有少量存活,那就选用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。而老年代中因为对象存活率高、没有额外空间对它进行分配担保,就必须使用标记-清理或者标记 --- 整理算法来进行回收。so,另一个问题来了,那内存区域到底被分为哪几块,每一块又有什么特别适合什么算法呢?
3 Java内存模型与回收策略
Java 堆(Java Heap)是JVM所管理的内存中最大的一块,堆又是垃圾收集器管理的主要区域,这里我们主要分析一下 Java 堆的结构。
图10 Java堆结构
年轻代与老年代,其中年轻代又分 Eden 区和 Survivor 区,其中 Survivor 区又分 From 和 To 2个区。可能这时候大家会有疑问,为什么需要 Survivor 区,为什么Survivor 还要分2个区。不着急,我们从头到尾,看看对象到底是怎么来的,而它又是怎么没的。
3.1 Eden 区
IBM 公司的专业研究表明,有将近98%的对象是朝生夕死,所以针对这一现状,大多数情况下,对象会在新生代 Eden 区中进行分配,当 Eden 区没有足够空间进行分配时,虚拟机会发起一次 Minor GC【小型回收】,Minor GC 相比 Major GC【大型回收】 更频繁,回收速度也更快。
通过 Minor GC 之后,Eden 会被清空,Eden 区中绝大部分对象会被回收,而那些无需回收的存活对象,将会进到 Survivor 的 From 区(若 From 区不够,则直接进入 Old 区)。
3.2 Survivor 区
缓冲,类似于我们交通灯中的黄灯。Survivor 又分为2个区,一个是 From 区,一个是 To 区。每次执行 Minor GC,会将 Eden 区和 From 存活的对象放到 Survivor 的 To 区(如果 To 区不够,则直接进入 Old 区)。
1、为啥需要?
不就是新生代到老年代么,直接 Eden 到 Old 不好了吗,为啥要这么复杂。想想如果没有 Survivor 区,Eden 区每进行一次 Minor GC,存活的对象就会被送到老年代,老年代很快就会被填满。而有很多对象虽然一次 Minor GC 没有消灭,但其实也并不会蹦跶多久,或许第二次,第三次就需要被清除。这时候移入老年区,很明显不是一个明智的决定。
所以,Survivor 的存在意义就是减少被送到老年代的对象,进而减少 Major GC 的发生。Survivor 的预筛选保证,只有经历16次 Minor GC 还能在新生代中存活的对象,才会被送到老年代。
2、为啥需要俩?
设置两个 Survivor 区最大的好处就是解决内存碎片化。
我们先假设一下,Survivor 如果只有一个区域会怎样。Minor GC 执行后,Eden 区被清空了,存活的对象放到了 Survivor 区,而之前 Survivor 区中的对象,可能也有一些是需要被清除的。问题来了,这时候我们怎么清除它们?在这种场景下,我们只能标记清除,而我们知道标记清除最大的问题就是内存碎片,在新生代这种经常会消亡的区域,采用标记清除必然会让内存产生严重的碎片化。因为 Survivor 有2个区域,所以每次 Minor GC,会将之前 Eden 区和 From 区中的存活对象复制到 To 区域。第二次 Minor GC 时,From 与 To 职责兑换,这时候会将 Eden 区和 To 区中的存活对象再复制到 From 区域,以此反复。
这种机制最大的好处就是,整个过程中,永远有一个 Survivor space 是空的,另一个非空的 Survivor space 是无碎片的。那么,Survivor 为什么不分更多块呢?比方说分成三个、四个、五个?显然,如果 Survivor 区再细分下去,每一块的空间就会比较小,容易导致 Survivor 区满,两块 Survivor 区可能是经过权衡之后的最佳方案。
3.3 Old 区
老年代占据着2/3的堆内存空间,只有在 Major GC 的时候才会进行清理,每次 GC 都会触发“Stop-The-World”。内存越大,STW 的时间也越长,所以内存也不仅仅是越大就越好。由于复制算法在对象存活率较高的老年代会进行很多次的复制操作,效率很低,所以老年代这里采用的是标记 --- 整理算法。
除了上述所说,在内存担保机制下,无法安置的对象会直接进到老年代,以下几种情况也会进入老年代。
1、大对象
大对象指需要大量连续内存空间的对象,这部分对象不管是不是“朝生夕死”,都会直接进到老年代。这样做主要是为了避免在 Eden 区及2个 Survivor 区之间发生大量的内存复制。当你的系统有非常多“朝生夕死”的大对象时,得注意了。
2、长期存活对象
虚拟机给每个对象定义了一个对象年龄(Age)计数器。正常情况下对象会不断的在 Survivor 的 From 区与 To 区之间移动,对象在 Survivor 区中每经历一次 Minor GC,年龄就增加1岁。当年龄增加到15岁时,这时候就会被转移到老年代。当然,这里的15,JVM 也支持进行特殊设置。
3、动态对象年龄
虚拟机并不重视要求对象年龄必须到15岁,才会放入老年区,如果 Survivor 空间中相同年龄所有对象大小的综合大于 Survivor 空间的一般,年龄大于等于该年龄的对象就可以直接进去老年区,无需等你“成年”。
这其实有点类似于负载均衡,轮询是负载均衡的一种,保证每台机器都分得同样的请求。看似很均衡,但每台机的硬件不通,健康状况不同,我们还可以基于每台机接受的请求数,或每台机的响应时间等,来调整我们的负载均衡算法。
4 Stop-The-World
在新生代进行的GC叫做minor GC,在老年代进行的GC都叫major GC,Full GC同时作用于新生代和老年代。在垃圾回收过程中经常涉及到对对象的挪动(比如上文提到的对象在Survivor 0和Survivor 1之间的复制),进而导致需要对对象引用进行更新。为了保证引用更新的正确性,Java将暂停所有其他的线程,这种情况被称为“Stop-The-World”,导致系统全局停顿。Stop-The-World对系统性能存在影响,因此垃圾回收的一个原则是尽量减少“Stop-The-World”的时间。
不同垃圾收集器的Stop-The-World情况,Serial、Parallel和CMS收集器均存在不同程度的Stop-The-Word情况;而即便是最新的G1收集器也不例外。
- Java中一种全局暂停的现象,jvm挂起状态
- 全局停顿,所有Java代码停止,native代码可以执行,但不能和JVM交互
- 多半由于jvm的GC引起,如:
1.老年代空间不足。
2.永生代(jkd7)或者元数据空间(jkd8)不足。
3.System.gc()方法调用。
4.CMS GC时出现promotion failed和concurrent mode failure
5.YoungGC时晋升老年代的内存平均值大于老年代剩余空间
6.有连续的大对象需要分配 - 除了GC还有以下原因:
1.Dump线程--人为因素。
2.死锁检查。
3.堆Dump--人为因素。
Full GC 是清理整个堆空间—包括年轻代和老年代。
4.1 GC时为什么会有全局停顿?
类比在聚会时打扫房间,聚会时很乱,又有新的垃圾产生,房间永远打扫不干净,只有让大家停止活动了,才能将房间打扫干净。当gc线程在处理垃圾的时候,其它java线程要停止才能彻底清除干净,否则会影响gc线程的处理效率增加gc线程负担,特别是在垃圾标记的时候。
4.2 危害
- 长时间服务停止,没有响应
- 遇到HA系统,可能引起主备切换,严重危害生产环境。
- 新生代的gc时间比较短(),危害小。
- 老年代的gc有时候时间短,但是有时候比较长几秒甚至100秒--几十分钟都有。
- 堆越大花的时间越长。