细说JVM（垃圾收集算法和HotSpot的算法实现）

一、垃圾收集算法

1、标记—清除算法

思想：
标记清除算法分为“标记”和“清除”两个阶段：首先标记出需要回收的对象，在标记完成后统一回收所有被标记的对象，标记的方法就是细说JVM（初步理解GC）中的可达性分析算法。
主要缺点：

效率问题：标记和清除的效率都不高，主要是因为内存经过这种算法垃圾收集后变为不规整的内存，标记和清除的效率受到了影响。
空间问题：因为内存在垃圾收集后会产生大量不连续的内存碎片，导致以后再需要分配较大的对象时找不到连续的内存空间，不得不提前触发另一次垃圾收集。

标记清除算法示意图：
这里写图片描述

2、复制算法

思想：
将内存按容量分为大小相等的凉快两块，每次只使用其中的一块，当这一块内存用完了，就将还存活的对象复制到另一块内存上去，然后吧已经使用过的内存块一次性清理。
优点：
使用这样的方法进行垃圾收集后，内存是规整的，所以不用担心内存碎片等问题，并且因为一次性清理一半的内存，效率很高。
*缺点：
内存的使用率低，每次只有一半的内存被使用。
改进：
因为内存中的对象大部分的寿命都很短，所以并不需要把内存空间分成相等的两份，可以根据实际的经验，把内存按照合适的比例进行分配。在Java默认的虚拟机HotSpot中默认把内存分为了三份，一份是内存较大的Eden空间，其余是两份比较小的Survivor空间，每次使用Eden和一份Survivor空间，当需要进行垃圾回收时，把存活的对象复制到另外一份Survivor空间上，然后清除使用的Eden和Survivor空间的内存，所以内存的使用率默认是90%，但是我们可以使用虚拟机参数-XX:SurvivorRatio=值来自己进行分配，默认是-XX:SurvivorRatio=8。
分配担保策略：
当Survivor空间不够用时，需要依赖老年代内存进行分配担保（Handle Promotion）。如果另外一块Survivor上没有足够空间存放上一次新生代收集下来的存活对象，这些对象将直接通过分配担保机制进入老年代。（内存按照对象的年龄分为新生代和老年代，这部分内容后面会讲解，这里只需要有个老年代担保的印象即可）
复制算法示意图：
这里写图片描述

3、标记—整理算法

思想：
和标记—清除算法类似，不过在标记了需要清除对象后，并不是直接进行清除，而是让所有的存活对象向一端移动，然后清除掉其余的内存。
优点：
使用这样的方法进行垃圾收集后，内存是规整的，所以不用担心内存碎片等问题。
标记—整理算法示意图：
这里写图片描述

4、分代收集算法

当前商业虚拟机的垃圾收集都采用分代收集（Generational Collection）算法，此算法相较于前几种没有什么新的特征，主要思想为：根据对象存活周期的不同将内存划分为几块，一般是把Java堆分为新生代和老年代，这样就可以根据各个年代的特点采用最适合的收集算法：

新生代：在新生代中，每次垃圾收集时都发现有大批对象死去，只有少量存活，那就选用复制算法，只需要付出少量存活对象的复制成本就可以完成收集。
老年代：在老年代中，因为对象存活率高、没有额外空间对它进行分配担保，就必须使用“标记-清除”或“标记-整理”算法来进行回收。

二、HotSpot的算法实现

我们现在已经学习了如何判断一个对象是否需要被收集，然后我们学习了垃圾收集的算法，现在我们就来学习一下在真正的虚拟机（HotSpot）中是如何将这些算法实现的。

1、枚举根节点

我们知道在可达性分析算法中是需要有GC Roots节点，可作为GC Roots的节点主要在全局性的引用（例如常量或类静态属性）与执行上下文（例如栈帧中的局部变量表）中，现在很多应用仅仅方法区就有数百兆，如果要逐个检查这里面的引用，那么必然会消耗很多时间。而且因为在枚举GC Roots节点时，程序时需要停顿的（不可以出现分析过程中对象引用关系还在不断变化的情况，这是保证分析结果准确性的基础。）所以我们不可能花费大量的时间去扫描方法区，那么虚拟机是如何实现在不扫描方法区的情况下找到可作为GC Roots的对象呢？

答案是：
在HotSpot的实现中，是使用一组称为OopMap的数据结构来达到这个目的的，在类加载完成的时候，HotSpot就把对象内什么偏移量上是什么类型的数据计算出来，在JIT编译过程中，也会在特定的位置记录下栈和寄存器中哪些位置是引用。这样，GC在扫描时就可以直接得知这些信息了。

注意：这里总感觉书中对于OopMap的讲解并不是很容易理解，这里我找到一个博客，对OopMap做了更细致的讲解：JVM 之 OopMap 和 RememberedSet

2、安全点

我们现在已经知道了在OopMap的帮助下我们可以快速的完成GC Roots的枚举，那么这就会出现一个问题：可能导致引用关系变化，或者说OopMap内容变化的指令非常多，如果为每一条指令都生成对应的OopMap，那将会需要大量的额外空间，这样GC的空间成本将会变得很高。
那么虚拟机是如何解决这个问题的呢？
答案是：
HotSpot选择不为每条指令都生成OopMap，而是只在“特定的位置”记录这些信息，这些位置便被称为安全点（Safepoint）。也就是说，程序执行时并非在所有地方都能停顿下来开始GC，只有在到达安全点时才能暂停。Safepoint的选定既不能太少以致于让GC等待时间太长，也不能过于频繁以致于过分增大运行时的负荷。所以，安全点的选定基本上是以程序是否具有让程序长时间执行的特征为标准进行选定的——因为每条指令执行的时间都非常短暂，程序不太可能因为指令流长度太长这个原因而过长时间运行，长时间执行的最明显特征就是指令序列复用，例如方法调用、循环跳转、异常跳转等，所以具有这些功能的指令才会产生Safepoint。

对于Sefepoint，另一个需要考虑的问题是如何在GC发生时让所有线程（这里不包括执行JNI调用的线程）都“跑”到最近的安全点上再停顿下来。这里有两种方案可供选择：

抢先式中断（Preemptive Suspension）：抢先式中断不需要线程的执行代码主动去配合，在GC发生时，首先把所有线程全部中断，如果发现有线程中断的地方不在安全点上，就恢复线程，让它“跑”到安全点上。现在几乎没有虚拟机实现采用抢先式中断来暂停线程从而响应GC事件。
主动式中断（Voluntary Suspension）：主动式中断的思想是当GC需要中断线程的时候，不直接对线程操作，仅仅简单地设置一个标志，各个线程执行时主动去轮询这个标志，发现中断标志为真时就自己中断挂起。轮询标志的地方和安全点是重合的，另外再加上创建对象需要分配内存的地方。

3、安全区域

Safepoint机制保证了程序执行时，在不太长的时间内就会遇到可进入GC的Safepoint。但是，程序“不执行”的时候（如线程处于Sleep状态或Blocked状态），这时线程无法响应JVM的中断请求，“走到”安全的地方去中断挂起，这时候就需要安全区域（Safe Region）来解决。

安全区域是指在一段代码片段之中，引用关系不会发生变化。在这个区域中的任意地方开始GC都是安全的。我们也可以把Safe Region看做是被扩展了的Safepoint。

在线程执行到Safe Region中的代码时，首先标识自己已经进入了Safe Region，那样，当在这段时间里JVM要发起GC时，就不用管标识自己为Safe Region状态的线程了。在线程要离开Safe Region时，它要检查系统是否已经完成了根节点枚举（或者是整个GC过程），如果完成了，那线程就继续执行，否则它就必须等待直到收到可以安全离开Safe Region的信号为止。

阿古拉斯啦啦

发布了159 篇原创文章 · 获赞 270 · 访问量 24万+

私信关注