一、基本概念:

JVM是可运行 Java代码的假想计算机,包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。JVM运行在操作系统之上,他与硬件没有直接交互。



二、运行过程

Java源文件通过编译器,能够产生相应的.Class文件,也就是字节码文件,而字节码文件又通过Java虚拟机中的解释器,编译成特定机器上的机器码。 过程如下:

Java源文件->编译器->字节码文件->JVM->机器码
复制代码

每一种平台的解释器是不同的,但是实现的虚拟机是相同的,这也就是Java能够跨平台的原因了,当一个程序从开始运行,这时候虚拟机就开始实例化了,多个程序启动就会存在多个虚拟机实例。程序退出或者 关闭,则虚拟机实例消亡,多个虚拟机实例之间数据不能共享。



线程

JVM允许一个应用并发执行多个线程。HotspotJVM中的Java线程与原生操作系统线程有直接的映射关系。当线程本地存储、缓 冲区分配、同步对象、栈、程序计数器等准备好以后,就会创建一个操作系统原生线程。 Java 线程结束,原生线程随之被回收。操作系统负责调度所有线程,并把它们分配到任何可 用的 CPU 上。当原生线程初始化完毕,就会调用Java线程的run()方法。当线程结束时,会释放原生线程和 Java 线程的所有资源。

三、JVM内存区域


JVM内存区域主要分为线程私有区域【程序计数器、虚拟机栈、本地方法栈】,线程共享区域【方法区、堆】


程序计数器(线程私有)

一块较小的内存空间,是当前线程所执行的字节码的行号执行器,每条线程都要有个一独立的程序计数器,这类内存也称为“线程私有”的内存。

正在执行Java方法的话,计数器记录的是虚拟机字节码指令的地址(当前指令的地址)。如果还是Native方法,则为空。

这个内存区域是唯一一个在虚拟机中没有规定任何OutOfMemoryError情况的区域。

虚拟机栈(线程私有)

是描述Java方法执行的内存模型,每个方法在执行的同时都会创建一个栈帧,用于存储局部变量表、操作数栈、动态链接、方法出口等信息。每一个方法从调用直至完成的过程,就对应着一个栈帧在虚拟机栈中入栈到出栈的过程。

栈帧是用来存储数据和部分结果的数据结构,同时也被用来处理动态链接、方法返回值和异常分派。栈帧随着方法的调用而创建,随着方法的结束而销毁-无论方法是正常完成还是异常完成(抛出了方法内未捕获的异常)都算作方法结束。



本地方法(线程私有)

本地方法区和java stack作用类似,区别是虚拟机栈为执行Java方法服务,而本地方法栈则为native方法服务,如果一个 VM 实现使用 C-linkage 模型来支持 Native 调用, 那么该栈将会是一个 C 栈,但 HotSpot VM 直接就把本地方法栈和虚拟机栈合二为一。

堆(线程共享)

创建的对象和数组都保存在Java堆内存中,也是垃圾收集器进行垃圾收集的最重要的区域。 由于现在jvm采用分代收集算法,因此Java堆从GC的角度还可以细分为:新生代(Eden区、From Survivor区和To Survivor区)和老年代

方法区(线程共享)-永久代

永久代用来存储被JVM加载的类信息、常量、静态变量、即时编译器编译后的代码等数据, HotSpot VM 把 GC 分代收集扩展至方法区,即使用Java堆的永久代来实现方法区,这样HotSpot的垃圾收集器就可以像管理 Java 堆一样管理这部分内存,而不必为方法区开发专门的内存管理器(永久带的内存回收的主要目标是针对常量池的回收和类型 的卸载, 因此收益一般很小)。 运行时常量池是方法区的一部分,Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有常量池。用于存放编译器生成的各种字面量和符号引用,这部分内容将在类加载后存放到方法区的运行时常量池中。Java虚拟机对Class文件对每一部分的格式都有严格的规定,每一个字节用于存储哪种数据结构都必须符合规范上的要求,这样才会被虚拟机认可、装载和执行。

四、JVM运行时内存

Java堆从GC的角度还可以细分为:新生代(Eden区、From survivor区和To survivor区)和老年代



新生代

用来存放新生的对象。一般占据1/3的空间。由于频繁创建对象,所以新生代会频繁触发MinorGC进行垃圾回收。新生代又分为 Eden 区、ServivorFrom、ServivorTo 三个区。

Eden区

Java新对象的出生地(如果新创建的对象占用内存很大,则直接分配到老 年代)。当 Eden 区内存不够的时候就会触发 MinorGC,对新生代区进行 一次垃圾回收。

From Survivor区

上一次GC的幸存者,作为这一次的GC的被扫描者

To Survivor区

保留了一次MinorGC过程中的幸存者

MinorGC的过程(复制->清空->互换)

MinorGC采用复制算法

老年代

主要存放应用程序中生命周期长的内存对象 老年代的对象比较稳定,所以MinorGC不会频繁执行。在进行MajorGC前一般都先执行了一次MinorGC,使得有新生代的对象晋升到老年代,导致空间不够用时才触发。当无法找到足 够大的连续空间分配给新创建的较大对象时也会提前触发一次 MajorGC 进行垃圾回收腾出空间。

MajorGC采用标记清除算法,首先扫描一次所有老年代,标记处存活的对象,然后回收没有标记的对象。MajorGC会产生内存碎片,为了减少内存损耗,我们一般需要进行合并或者标记出来方便下次直接分配。当老年代也满了装不下的 时候,就会抛出 OOM(Out of Memory)异常。

永久代

指内存的永久保存区域,主要存放 Class 和 Meta(元数据)的信息,Class 在被加载的时候被 放入永久区域,它和和存放实例的区域不同,GC 不会在主程序运行期对永久区域进行清理。所以这 也导致了永久代的区域会随着加载的 Class 的增多而胀满,最终抛出 OOM 异常。

java8与元数据

在 Java8 中,永久代已经被移除,被一个称为“元数据区”(元空间)的区域所取代。元空间的本质和永久代类似,元空间与永久代之间最大的区别在于:元空间并不在虚拟机中,而是使用 本地内存。因此,默认情况下,元空间的大小仅受本地内存限制。类的元数据放入native memory, 字符串池和类的静态变量放入java 堆中,这样可以加载多少类的元数据就不再由 MaxPermSize控制, 而由系统的实际可用空间来控制。

五、垃圾回收与算法



如何确定垃圾

引用计数法

在 Java 中,引用和对象是有关联的。如果要操作对象则必须用引用进行。因此,很显然一个简单 的办法是通过引用计数来判断一个对象是否可以回收。简单说,即一个对象如果没有任何与之关 联的引用,即他们的引用计数都不为 0,则说明对象不太可能再被用到,那么这个对象就是可回收 对象。

可达性分析法

为了解决引用计数法的循环引用问题,Java 使用了可达性分析的方法。通过一系列的“GC roots” 对象作为起点搜索。如果在“GC roots”和一个对象之间没有可达路径,则称该对象是不可达的。 要注意的是,不可达对象不等价于可回收对象,不可达对象变为可回收对象至少要经过两次标记 过程。两次标记后仍然是可回收对象,则将面临回收。

标记清除算法

最基础的垃圾回收算法,分为两阶段,标注和清除。标记阶段标记出所有需要回收的对象,清除阶段回收被标记的对象所占用的空间。如图



从图中我们可以发现,该算法最大的问题是内存碎片化严重,后续可能发生大对象找不到可利用的空间的问题。

复制算法

为了解决 Mark-Sweep 算法内存碎片化的缺陷而被提出的算法。按内存容量将内存划分为等大小 的两块。每次只使用其中一块,当这一块内存满后将尚存活的对象复制到另一块上去,把已使用 的内存清掉,如图:


该算法最大的问题是将可用内存压缩到原来的一半,且存活对象增多的话,copying算法的效率会大大降低。

标记整理算法

标记阶段和 Mark-Sweep 算法相同,标记后不是清理对象,而是将存活对象移向内存的一端,然后清除端边界外的对象,如图:



分代收集算法

分代收集法是目前大部分 JVM 所采用的方法,其核心思想是根据对象存活的不同生命周期将内存 划分为不同的域,一般情况下将 GC 堆划分为老生代(Tenured/Old Generation)和新生代(Young Generation)。老生代的特点是每次垃圾回收时只有少量对象需要被回收,新生代的特点是每次垃 圾回收时都有大量垃圾需要被回收,因此可以根据不同区域选择不同的算法。

新生代和复制算法

目前大部分 JVM 的 GC 对于新生代都采取 Copying 算法,因为新生代中每次垃圾回收都要 回收大部分对象,即要复制的操作比较少,但通常并不是按照 1:1 来划分新生代。一般将新生代 划分为一块较大的 Eden 空间和两个较小的 Survivor 空间(From Space, To Space),每次使用 Eden 空间和其中的一块 Survivor 空间,当进行回收时,将该两块空间中还存活的对象复制到另 一块 Survivor 空间中。



老年代和标记整理算法

老年代因为每次回收少量对象,因而采用标记整理算法

1、Java虚拟机提到过的方法区的永生代,他用来存储class类,常量,方法描述等。对永久代的回收主要包括废弃常量和无用的类。

2、对象的内存分配主要在新生代的 Eden Space 和 Survivor Space 的 From Space(Survivor 目 前存放对象的那一块),少数情况会直接分配到老生代。

3、当新生代的 Eden Space 和 From Space 空间不足时就会发生一次 GC,进行 GC 后,Eden Space 和 From Space 区的存活对象会被挪到 To Space,然后将 Eden Space 和 From Space 进行清理。

4、如果 To Space 无法足够存储某个对象,则将这个对象存储到老生代。

5、在进行 GC 后,使用的便是 Eden Space 和 To Space 了,如此反复循环。

6、当对象的Survivor区躲过一次GC后,其年龄就会+1。默认情况下年龄到达15的对象会被移到老生代中。

六、Java四种引用类型

强引用

在 Java 中最常见的就是强引用,把一个对象赋给一个引用变量,这个引用变量就是一个强引 用。当一个对象被强引用变量引用时,它处于可达状态,它是不可能被垃圾回收机制回收的,即 使该对象以后永远都不会被用到 JVM 也不会回收。因此强引用是造成 Java 内存泄漏的主要原因之 一。

软引用

软引用需要用 SoftReference 类来实现,对于只有软引用的对象来说,当系统内存足够时它 不会被回收,当系统内存空间不足时它会被回收。软引用通常用在对内存敏感的程序中。

弱引用

弱引用需要用 WeakReference 类来实现,它比软引用的生存期更短,对于只有弱引用的对象 来说,只要垃圾回收机制一运行,不管 JVM 的内存空间是否足够,总会回收该对象占用的内存。

虚引用

虚引用需要 PhantomReference 类来实现,它不能单独使用,必须和引用队列联合使用。虚 引用的主要作用是跟踪对象被垃圾回收的状态。

GC分代收集算法和分区收集算法

分代收集算法

当前主流 VM 垃圾收集都采用”分代收集”(Generational Collection)算法, 这种算法会根据对象存活周期的不同将内存划分为几块, 如JVM 中的 新生代、老年代、永久代,这样就可以根据 各年代特点分别采用最适当的 GC 算法

在新生代-复制算法

每次垃圾收集都能发现大批对象已死, 只有少量存活. 因此选用复制算法, 只需要付出少量 存活对象的复制成本就可以完成收集.

在老年代-标记整理算法

因为对象存活率高、没有额外空间对它进行分配担保, 就必须采用“标记—清理”或“标 记—整理”算法来进行回收, 不必进行内存复制, 且直接腾出空闲内存.

分区收集算法

分区算法则将整个堆空间划分为连续的不同小区间,每个小区间独立使用,独立回收.这样做的好处是可控制一次回收多少个小区间, 根据目标停顿时间,每次合理地回收若干个小区间(而不是整个堆),从而减少一次 GC 所产生的停顿。

七、GC垃圾收集器

Java堆内存被划分为新生代和老年代两部分,新生代主要使用复制和标记-清除垃圾回收算法;老年代主要使用标记-整理垃圾回收算法,jdk1.6中虚拟机的垃圾收集器如下:



Serial垃圾收集器(单线程、复制算法)

Serial是最基本的垃圾收集器,使用复制算法.serial是一个单线程的收集器,只会使用一个CPU