Java虚拟机的基本结构

时间：04-25来源：作者：点击数：46

1.Java虚拟机的架构

类加载子系统负责从文件系统或者网络中加载Class信息，加载的类信息存放于一块称为方法区的内存空间。除了类的信息外，方法区中可能还会存放运行时常量池信息，包括字符串字面量和数字常量（这部分常量信息是Class文件中常量池部分的内存映射）
Java堆在虚拟机启动的时候建立，它是Java程序最主要的内存工作区域。几乎所有的Java对象实例都存放于Java堆中。堆空间是所有线程共享的，这是一块与Java应用密切相关的内存区间。
直接内存是在Java堆外的、直接向系统申请的内存区间。Java的NIO库允许Java程序使用直接内存。通常，访问直接内存的速度会优于Java堆。因此出于性能考虑，读写频繁的场合可能会考虑使用直接内存。由于直接内存在Java堆外，因此它的大小不会直接受限于Xmx指定的最大堆大小，但是系统内存是有限的，Java堆和直接内存的总和依然受限于操作系统能给出的最大内存。
每一个Java虚拟机线程都有一个私有的Java栈。一个线程的Java栈在线程创建的时候被创建。Java栈中保存着帧信息，Java栈中保存着局部变量、方法参数，同时和Java方法的调用、返回密切相关。
本地方法栈和Java栈非常类似，最大的不同在于Java栈用于Java方法的调用，而本地方法栈则用于本地方法调用。作为对Java虚拟机的重要扩展，Java虚拟机允许Java直接调用本地方法（通常使用C编写）。
垃圾回收系统是Java虚拟机的重要组成部分，垃圾回收器可以对方法区、Java堆和直接内存进行回收。其中，Java堆是垃圾收集器的工作重点。和C/C++不同，Java中所有的对象空间释放都是隐式的。也就是说，Java中没有类似free(或者delete这样的函数释放指定的内存区域。对于不再使用的垃圾对象，垃圾回收系统会在后台默默工作，默默查找、标识并释放垃圾对象，完成包括Java堆、方法区和直接内存中的全自动化管理。
PC(Program Counter)寄存器也是每个线程私有的空间，Java虚拟机会为每一个Java线程创建PC寄存器。在任意时刻，一个Java线程总是在执行一个方法，这个正在被执行的方法称为当前方法。如果当前方法不是本地方法，PC寄存器就会指向当前正在被执行的指令。如果当前方法是本地方法，那么PC寄存器的值就是undefined。
执行引擎是Java虚拟机的最核心组件之一，它负责执行虚拟机的字节码。现代虚拟机为了提高执行效率，会使用即时编译技术将方法编译成机器码后再执行。

2.设置Java虚拟机的参数

Java虚拟机可以使用JAVA HOME/bin/java程序启动(JAVA HOME为JDK的安装目录)，一般来说Java进程的命令行使用方法如下：

java [-options] class [argd....]
#其中，-options表示Java虚拟机的启动参数，
#class为带有mainO函数的Java类，
#args表示传递给主函数mainO的参数。
#例如：
java -Xmx32m guye.zbase.ch2.SimpleArgs a
#第一个参数-Xmx32m传递给Java虚拟机，生效后，使得系统最大可用堆空间为32MB,
#参数a则传递给主函数mainO,作为应用程序的参数。

Idea开发工具中设置参数：

3.Java堆

Java堆是和Java应用程序关系最为密切的内存空间，几乎所有的对象都存放在堆中。并且Java堆是完全自动化管理的，通过垃圾回收机制，垃圾对象会被自动清理，而不需要显式地释放。

根据垃圾回收机制的不同，Java堆有可能拥有不同的结构。最为常见的一种构成是将整个Java堆分为新生代和老年代。其中，新生代存放新生对象或者年龄不大的对象，老年代则存放老年对象。新生代有可能分为eden区、s0区、sl区，s0和sl也被称为from和to区域，它们是两块大小相等、可以互换角色的内存空间。

在绝大多数情况下，对象首先分配在eden区，在一次新生代回收后，如果对象还存活，则会进入s0或者s1,之后，每经过一次新生代回收，对象如果存活，它的年龄就会加1。当对象的年龄达到一定条件后，就会被认为是老年对象，从而进入老年代。

上述代码声明了一个SimpleHeap类，并在main(函数中创建了两个SimpleHeap实例。此时，各对象和局部变量的存放下图。SimpleHeap实例本身分配在堆中，描述SimpleHeap类的信息存放在方法区main()函数中sl和s2局部变量存放在Java栈中，并指向堆中的两个实例。

4.Java栈

Java栈是一块线程私有的内存空间。如果说，Java堆和程序数据密切相关，那么Java栈就是和线程执行密切相关的。线程执行的基本行为是函数调用，每次函数调用的数据都是通过Java栈传递的。

Java栈与数据结构上的栈有着类似的含义，它是一块先进后出的数据结构，只支持出栈和入栈两种操作。在Java栈中保存的主要内容为栈帧。每一次函数调用，都会有一个对应的栈帧被压入Java栈，每一个函数调用结束，都会有一个栈帧被弹出Java栈。如图下图所示，函数1对应栈帧1，函数2对应栈帧2，依此类推。函数1中调用函数2，函数2中调用函数3，函数3中调用函数4。当函数1被调用时，栈帧1入栈：当函数2被调用时，栈帧2入栈：当函数3被调用时，栈帧3入栈：当函数4被调用时，栈帧4入栈。当前正在执行的函数所对应的帧就是当前的帧（位于栈顶），它保存着当前函数的局部变量、中间运算结果等数据。

当函数返回时，栈帧从Java栈中被弹出。Java方法有两种返回函数的方式，一种是正常的函数返回，使用rtum指令；另外一种是抛出异常。不管使用哪种方式，都会导致栈帧被弹出。在一个栈帧中，至少要包含局部变量表、操作数栈和顿数据区几个部分。

注意：由于每次函数调用都会生成对应的栈帧，从而占用一定的栈空间，因此，如果栈空间不足，那么函数调用自然无法继续进行下去。当请求的栈深度大于最大可用栈深度时，系统就会拋出StackOverflowError栈溢出错误。

Java虚拟机提供了参数-Xss来指定线程的最大栈空间，这个参数也直接决定了函数调用的最大深度。下面的代码是一个递归调用，由于递归没有出口，这段代码可能会出现栈溢出错误，在抛出错误后，程序打印了最大的调用深度。

使用参数-Xss128K执行以上代码，部分结果如下所示：
尝试使用参数-Xss256K执行上述代码，如下输出：
很明显，调用层次有明显的增加。函数嵌套调用的层次在很大程度上由栈的大小决定，栈越大，函数可以支持的嵌套调用次数就越多

4.1.局部变量表

局部变量表是栈帧的重要组成部分之一。它用于保存函数的参数以及局部变量。局部变量表中的变量只在当前函数调用中有效，当函数调用结束后，随着函数栈帧的销毁，局部变量表也会随之销毁。

由于局部变量表在栈帧之中，因此，如果函数的参数和局部变量较多，会使得局部变量表膨胀，从而每一次函数调用就会占用更多的栈空间，最终导致函数的嵌套调用次数减少。

改进上述的代码成下面的：

从结果中看，在相同的栈容量下，局部变量少的函数可以支持更深的函数调用。

使用jclasslib工具可以更进一步查看函数的局部变量信息。你可以使用win 工具 jclasslib下载地址github，也可以在idea安装jclasslib插件。我选择了第二个。

上面显示了recursion0函数的最大局部变量表的大小为14个字。因为该函数包含总共7局部变量，且都为long型，long和double在局部变量表中需要占用2个字，其他如int、short、byte、对象引用等占用1个字。

上面显示了在Clss文件中的局部变量表的内容（这里说的局部变量表和上述的局部变量表不同，这里指Class文件的一个属性，而上述的局部变量表指Java栈空间的一部分)。
根据上面显示看到，在Clss文件的局部变量表中，显示了每个局部变量的作用域范围、所在槽位的索引(序号)、变量名(名字列)和数据类型(J表示long型)。

栈帧中的局部变量表中的槽位是可以重用的，如果一个局部变量过了其作用域，那么在其作用域之后申明的新的局部变量就很有可能会复用过期局部变量的槽位，从而达到节省资源的目的。

局部变量表中的变量也是重要的垃圾回收根节点，只要被局部变量表中直接或间接引用的对象都是不会被回收的。因此，理解局部变量表对理解垃圾回收也有一定帮助。

下面通过一个简单的示例，展示局部变量对垃圾回收的影响：下述代码中，每一个localvarGeN()函数都分配了一块6MB的堆空间，并使用局部变量引用这块空间。

在localvarGc1()中，在申请空间后，立即进行垃圾回收，很明显，由于byte数组被变量a引用，因此无法回收这块空间。

在localvarGc2()中，在垃圾回收前，先将变量a置为null,使byte数组失去强引用，故垃圾回收可以顺利回收byte数组。

对于localvarGc3(),在进行垃圾回收前，先使局部变量a失效，虽然变量a已经离开了作用域，但是变量a依然存在于局部变量表中，并且也指向这块byte数组，故byte数组依然无法被回收。

对于localvarGc4(),在垃圾回收之前，不仅使变量a失效，更是申明了变量c,使变量c复用了变量a的字（如果一个局部变量过了其作用域，那么在其作用域之后申明的新的局部变量就很可以会复用过期局部变量的槽位），由于变量a此时被销毁，故垃圾回收器可以顺利回收byte数组。

对于localvarGc5(),它首先调用了localvarGc1(),很明显，在localvarGc1()中并没有释放byte数组，但在localvarGc1():返回后，它的栈帧被销毁，自然也包含了栈帧中的所有局部变量，故byte数组失去引用，在localvarGe5()的垃圾回收中被回收。

可以使用参数-XX:+PrintGC执行上述几个函数，在输出的日志中，可以看到垃圾回收前后堆的大小，进而推断byte数组是否被回收。

4.2.操作数

操作数栈也是栈帧中重要的内容之一，它主要用于保存计算过程的中间结果，同时作为计算过程中变量临时的存储空间。

操作数栈也是一个先进后出的数据结构，只支持入栈和出栈两种操作。许多Java字节码指令都需要通过操作数栈进行参数传递。比如iadd指令，它就会在操作数栈中弹出两个整数并进行加法计算，计算结果会被入栈，下图显示了iadd前后操作数栈的变化。

4.3.帧数据

除了局部变量表和操作数栈外，Java栈帧还需要一些数据来支持常量池解析、正常方法返回和异常处理等。大部分Java字节码指令需要进行常量池访问，在帧数据区中保存着访问常量池的指针，方便程序访问常量池。

此外，当函数返回或者出现异常时，虚拟机必须恢复调用者函数的栈帧，并让调用者函数继续执行下去。对于异常处理，虚拟机必须有一个异常处理表，方便在发生异常的时候找到处理异常的代码，因此异常处理表也是帧数据区中重要的一部分。上面例题中的异常处理表如下所示：

它表示在字节码偏移量0~3字节可能抛出任意异常，如果遇到异常，则跳转到字节码偏移6处执行。当方法抛出异常时，虚拟机就会查找类似的异常表来进行处理，如果无法在异常表中找到合适的处理方法，则会结束当前函数调用，返回调用函数，并在调用函数中抛出相同的异常，并查找调用函数的异常表进行处理。

4.4.栈上分配

栈上分配是Jva虚拟机提供的一项优化技术，它的基本思想是，对于那些线程私有的对象(这里指不可能被其他线程访问的对象)，可以将它们打散分配在栈上，而不是分配在堆上。分配在栈上的好处是可以在函数调用结束后自行销毁，而不需要垃圾回收器的介入，从而提高系统的性能。

栈上分配的一个技术基础是进行逃逸分析。逃逸分析的目的是判断对象的作用域是否有可能逃逸出函数体。如下代码显示了一个逃逸的对象：

对象User u是类的成员变量，该字段有可能被任何线程访问，因此属于逃逸对象。

在上述代码中，对象User以局部变量的形式存在，并且该对象并没有被allocO函数返回，或者出现了任何形式的公开，因此，它并未发生逃逸，所以对于这种情况，虚拟机就有可能将User分配在栈上，而不在堆上。

对于大量的零散小对象，栈上分配提供了一种很好的对象分配优化策略，栈上分配速度快，并且可以有效避免垃圾回收带来的负面影响，但由于和堆空间相比，栈空间较小，因此对于大对象无法也不适合在栈上分配。

5.方法区

和Java堆一样，方法区是一块所有线程共享的内存区域。它用于保存系统的类信息，比如类的字段、方法、常量池等。方法区的大小决定了系统可以保存多少个类，如果系统定义了太多的类，导致方法区溢出，虚拟机同样会抛出内存溢出错误。

在JDK1.6、JDK1.7中，方法区可以理解为永久区(Perm)。永久区可以使用参数-XX:PermSize和-XX:MaxPermSize指定，默认情况下，-XX:MaxPermSize为64MB。一个大的永久区可以保存更多的类信息。如果系统使用了一些动态代理，那么有可能会在运行时生成大量的类，如果这样，就需要设置一个合理的永久区大小，确保不发生永久区内存溢出。

在JDK1.8中，永久区已经被彻底移除。取而代之的是元数据区，元数据区大小可以使用参数-XX:MaxMetaspaceSize指定（一个大的元数据区可以使系统支持更多的类），这是一块堆外的直接内存。与永久区不同，如果不指定大小，默认情况下，虚拟机会耗尽所有的可用系统内存。

如果元数据区发生溢出，虚拟机一样会抛出异常，如下所示：