字节码指令集与解析举例
概述
Java字节码对于虚拟机,就好像汇编语言对于计算机,属于基本执行指令。
Java 虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码,Opcode) 以及跟随其后的零至多个代表此操作所需参数(称为操作数,Operands) 而构成。由于Java 虚拟机采用面向操作数栈而不是寄存器的结构,所以大多数的指令都不包含操作数,只有一个操作码。
由于限制了Java虚拟机操作码的长度为一个字节(即0~255),这意味着指令集的操作码总数不可能超过256条。
官方文档: https://docs.oracle.com/javase/specs/jvms/se8/html/jvms-6.html
熟悉虚拟机的指令对于动态字节码生成、反编译Class文件、Class 文件修补都有着非常重要的价值。因此,阅读字节码作为了解Java虚拟机的基础技能,需要熟练学握常见指令。
执行模型
如果不考虑异常处理的话,那么Java虛拟机的解释器可以使用下面这个伪代码当做最基本的执行模型来理解。
do{
自动计算PC寄存器的值加1;
根据PC寄存器的指示位置,从字节码流中取出操作码;
if(字节码存在操作数)从字节码流中取出操作数;
执行操作码所定义的操作;
}while(字节码长度 > 0);
字节码与数据类型
在Java虚拟机的指令集中,大多数的指令都包含了其操作所对应的数据类型信息。例如,iload
指令用于从局部变量表中加载int型的数据到操作数栈中,而fload
指令加载的则是float类型的数据。
对于大部分与数据类型相关的字节码指令,它们的操作码助记符中都有特殊的字符来表明专门为哪种数据类型服务:
- i 代表对 int 类型的数据操作
- l 代表 long
- s 代表 short
- b 代表 byte
- c 代表 char
- f 代表 float
- d 代表 double
也有一些指令的助记符中没有明确地指明操作类型的字母,如arraylength
指令, 它没有代表数据类型的特殊字符,但操作数永远只能是一个数组类型的对象。
还有另外一些指令,如无条件跳转指令goto则是与数据类型无关的。
大部分的指令都没有支持整数类型byte、char和short,甚至没有任何指令支持boolean类型。⚠️编译器会在编译期或运行期将byte和short类型的数据带符号扩展(Sign-Extend) 为相应的int类型数据,将boolean和char类 型数据零位扩展(Zero-Extend)为相应的int类型数据。与之类似,在处理boolean、byte、 short和char 类型的数组时,也会转换为使用对应的int类型的字节码指令来处理。因此,大多数对于boolean、byte、 short 和char类型数据的操作,
指令分类
由于完全介绍和学习这些指令需要花费大量时间。为了让大家能够更快地熟悉和了解这些基本指令,这里将JVM中的字节码指令集按用途大致分成9类。
- 加载与存储指令
- 算术指令
- 类型转换指令
- 对象的创建与访问指令
- 方法调用与返回指令
- 操作数栈管理指令
- 比较控制指令
- 异常处理指令
- 同步控制指令
在做值相关操作时:
- 一个指令,可以从局部变量表、常量池、堆中对象、方法调用、系统调用中等取得数据,这些数据(可能是值可能是对象的引用)被压入操作数栈。
- 一个指令,也可以从操作数栈中取出一到多个值(pop多次),完成赋值、加减乘除、方法传参、系统调用等等操作。
操作数栈与局部变量表
操作数栈
我们知道,Java字节码是Java虚拟机所使用的指令集。因此,它与Java虚拟机基于栈的计算模型是密不可分的。
在解释执行过程中,每当为Java方法分配栈桢时,Java虚拟机往往需要开辟块 额外的空间作为操作数栈,来存放计算的操作数以及返回结果。
具体来说便是:执行每一条指令之前,Java虚拟机要求该指令的操作数已被压入操作数栈中。在执行指令时,Java虚拟机会将该指令所需的操作数弹出,并且将指令的结果重新压入栈中。
以加法指令iadd 为例。假设在执行该指令前,栈项的两个元素分别为int值1和int值2,那么iadd指令将弹出这两个int,并将求得的和int值3压入栈中。
由于iadd 指令只消耗栈顶的两个元素,因此,对于离栈顶距离为2的元素,即图中的问号,iadd 指令并不关心它是否存在,更加不会对其进行修改。
局部变量表
Java方法栈桢的另外一个重要组成部分则是局部变量区,字节码程序可以将计算的结果缓存在局部变量区之中。
实际上,Java虚拟机将局部变量区当成一个数组,依次存放this指针(仅非静态方法),所传入的参数,以及字节码中的局部变量。
⚠️ 和操作数栈一样,long类型以及double 类型的值将占据两个单元,其余类型仅占据一个单元。
举例
public void foo(long l,float f){
{
int i = 0;
}
{
String s = "Hello,World"; // 槽位复用;i出了作用域,使用s还是在该位置。
}
}
对应图示:
在栈帧中,与性能调优关系最为密切的部分就是局部变量表。局部变量表中的变量也是重要的垃圾回收根节点,只要被局部变量表中直接或间接引用的对象都不会被回收。
在方法执行时,虚拟机使用局部变量表完成方法的传递。
加载与存储指令
1.作用
加载和存储指令用于将数据从栈帧的局部变量表和操作数栈之间来回传递。
2.常用指令
-
【局部变量压栈指令】将个局部变量加载到操作数栈:
xload
、xload<n>
(其中x为i、1、f、d、a,n为0到3) -
【常量入栈指令】 将一个常量加载到操作数栈:
bipush
、sipush
、ldc
、ldc_W
、ldc2_W
、aconst_null
、iconst_m1
、iconst<i>
、lconst<l>
、fconst<f>
、dconst<d>
-
【出栈装入局部变量表指令】 将一个数值从操作数栈存储到局部变量表:
xstore
、xstore<n>
(其中x为i、l、f、d、a,n为0到3);xastore
(其中x为i、l、f、d、a、b、c、s) -
扩充局部变量表的访问索引的指令:
wide
上面所列举的指令助记符中,有一部分是以尖括号结尾的( 例如iload<n>
) 。这些指令助记符实际上代表了一组指令(例如iload<n>
代表了iload_0
、iload_1
、iload_2
和iload_3
这几个指令)。这几组指令都是某个带有一个操作数的通用指令(例如iload
)的特殊形式,对于这若干组特殊指令来说,它们表面上没有操作数,不需要进行取操作数的动作,但操作数都隐含在指令中。
除此之外,它们的语义与原生的通用指令完全一致(例如iload_0
的语义与操作数为0时的iload 指令语义完全一致)。在尖括号之间的字母指定了指令隐含操作数的数据类型,<n>
代表非负的整数, <i>
代表是int类型数据,<1>
代表long类型,<f>
代表float类型, <d>
代表double类型。
局部变量压栈指令
局部变量压栈指令将给定的局部变量表中的数据压入操作数栈。
这类指令大体可以分为:
xload_<n>
(x为i、l、f、d、a,n为0到3)-
` xload` (x为i、l、f、d、a)
- 说明:在这里,x的取值表示数据类型。
指令xload_n
表示将第n个局部变量压入操作数栈,比如iload 1
、 fload_0
、aload_0
等指令。其中aload_n
表示将一个对象引用压栈。
指令xload
通过指定参数的形式,把局部变量压入操作数栈,当使用这个命令时,表示局部变量的数量可能超过了4个,比如指令iload
、fload
等 。
常量入栈指令
常量入栈指令的功能是将常数压入操作数栈,根据数据类型和入栈内容的不同,又可以分为const系列、push系列和ldc指令。
指令const系列:用于对特定的常量入栈,入栈的常量隐含在指令本身里。指令有: iconst<i>
(i从-1到5)、lconst<1>
(1从0到1)、 fconst<f>
(f从0到2)、dconst<d>
(d从0到1)、aconst_null
。
比如,
iconst_m1
将 -1压入操作数栈;iconst_x
(x为0到5)将x压入栈:lconst_0
、lconst_1
分别将长整数0和1压入栈:fconst_0
、fconst_1
、fconst_2
分别将浮点数0、1、2压入栈:dconst_0
和dconst_1
分别将double型0和1压入栈。aconst_null
将null压入操作数栈;
从指令的命名上不难找出规律,指令助记符的第一个字符总是喜欢表示数据类型,i表示整数,l表示长整数,f表示浮点数,d表示双精度浮点,习惯上用a表示对象引用。如果指令隐含操作的参数,会以下划线形式给出。
指令push系列: 主要包括bipush
和sipush
。 它们的区别在于接收数据类型的不同,
bipush
接收8位整数作为参数sipush
接收16位整数:它们都将参数压入栈。
⭐️指令ldc系列: 如果以上指令都不能满足需求,那么可以使用万能的ldc
指令,它可以接收一个8位的参数, 该参数指向常量池中的int、float或者String的索引,将指定的内容压入堆栈。
-
类似的还有
ldc_w
,它接收两个8位参数,能支持的索引范围大于ldc(索引太大时,自动替换为ldc_w
)。 -
⚠️如果要压入的元素是long或者double类型的,则使用
ldc2_w
指令,使用方式都是类似的。
总结如下:
出栈装入局部变量表指令
出栈装入局部变量表指令用于将操作数栈中栈顶元素弹出后,装入局部变量表的指定位置,用于给局部变量赋值。
这类指令主要以store的形式存在,比如xstore
(x为i、 l、f、d、a)、xstore_n
(x为i、l、f、d、a,n为0至3)。
- 其中,指令
istore_n
将从操作数栈中弹出一个整数,并把它赋值给局部变量索引n位置。 - 指令
xstore
由于没有隐含参数信息,故需要提供一个byte类型的参数类指定目标局部变量表的位置。
说明:
一般说来,类似像store这样的命令需要带一个参数,用来指明将弹出的元素放在局部变量表的第几个位置。但是,为了尽可能压缩指令大小,使用专门的istore_1
指令表示将弹出的元素放置在局部变量表第1个位置。类似的还有istore_0
、istore_2
、 istore_3
, 它们分别表示从操作数栈项弹出一个元素,存放在局部变量表第0、2、3个位置。
由于局部变量表前几个位置总是非常常用,因此这种做法虽然增加了指令数量,但是可以大大压缩生成的字节码的体积。如果局部变量表很大,需要存储的槽位大于3,那么可以使用istore
指令, 外加一个参数,用来表示需要存放的槽位位置。
算数指令
-
作用
算术指令用于对两个操作数栈上的值进行某种特定运算,并把结果重新压入操作数栈。
-
分类 大体上算术指令可以分为两种:对整型数据进行运算的指令与对浮点类型数据进行运算的指令。
-
byte、 short、 char 和boolean类型说明
在每一大类中,都有针对Java虚拟机具体数据类型的专用算术指令。但没有直接支持byte、short、 char 和boolean类型的算术指令,对于这些数据的运算,都使用int类型的指令来处理。此外,在处理boolean、byte、 short 和char类型的数组时,也会转换为使用对应的int类型的字节码指令来处理。
-
运算时的溢出
数据运算可能会导致溢出,例如两个很大的正整数相加,结果可能是一个负数。其实Java虛拟机规范并无明确规定过整型数据溢出的具体结果,仅规定了在处理整型数据时,只有除法指令以及求余指令中当出现除数为0时会导致虚拟机抛出异常ArithmeticException。
-
运算模式
- 向最接近数舍入模式: JVM要求 在进行浮点数计算时,所有的运算结果都必须舍入到适当的精度,非精确结果必须舍入为可被表示的最接近的精确值,如果有两种可表示的形式与该值样接近,将优先选择最低有效位为零的
- 向零舍入模式:将浮点数转换为整数时,采用该模式,该模式将在目标数值类型中选择一个最接近但是不大于原值的数字作为最精确的舍入结果;
-
NaN值使用
当一个操作产生溢出时,将会使用有符号的无穷大表示,如果某个操作结果没有明确的数学定义的话,将会使用NaN值来表示。而且所有使用NaN值作为操作数的算术操作,结果都会返回NaN
所有算数指令
所有的算数指令包括:
举例
public static int bar(int i){ // i=5
return ((i + 1) - 2)* 3 / 4;
}
++i 和 i++
// ++i 和i++,不涉及赋值时字节码完全一致
public void method6(){
int i = 10;
i++;
}
0 bipush 10
2 istore_1
3 iinc 1 by 1
6 return
/************************************/
public void method7(){
int i = 10;
++i;
}
0 bipush 10
2 istore_1
3 iinc 1 by 1
6 return
public void method7(){
int i = 10;
int a = i++; // a=10(先压栈再局部变量表自增1,然后取回给a赋值)
int j = 20;
int b = ++j; // b=21(先局部变量表自增1再压栈,然后取回给b赋值)
}
// ⚠️ 先赋值再自增1
0 bipush 10 // 把 10 放入操作数栈
2 istore_1 // 把 10 移出操作数栈,放入局部变量表索引为 1 的位置
3 iload_1 // 把索引为1位置的数(10)放入操作数栈
4 iinc 1 by 1 // 局部变量表索引1位置数+1
7 istore_2 // 把(10)放入局部变量表索引2
// ⚠️ 先自增1再赋值
8 bipush 20
10 istore_3
11 iinc 3 by 1 // 局部变量表索引3位置数(20)+1
14 iload_3 // 把索引为3位置的数(21)放入操作数栈
15 istore 4 // 把21放入局部变量表
17 return
// 思考 🤔
public void method8(){
int i = 10;
i = i++;
System.out.println(i); // i=10
}
0 bipush 10 // 把 10 放入操作数栈
2 istore_1 // 把 10 移出操作数栈,放入局部变量表索引为 1 的位置
3 iload_1 // 把索引为1位置的数(10)放入操作数栈
4 iinc 1 by 1 // 局部变量表索引1位置数+1
7 istore_1 // ⚠️ 取回操作数栈中的10;把局部变量表索引1位置的11又覆盖了
8 getstatic #2 <java/lang/System.out>
11 iload_1
12 invokevirtual #5 <java/io/PrintStream.println>
15 return
比较指令说明
- 比较指令的作用是比较栈顶两个元素的大小,并将比较结果入栈。
- 比较指令有: dcmpg、dcmp1、 fcmpg、fcmpl、lcmp
- 与前面讲解的指令类似,首字符d表double示类型,f表 float示,l表示long
- 对于double和float类型的数字,由于NaN的存在,各有两个版本的比较指令。以 float例,有 fcmpg和fcmpl两个指令,它们的区别在于在数字比较时,若遇到NaN值,处理结果不同。
- 指令dcmpl和 dcmpg也是类似的,根据其命名可以推测其含义,在此不再赘述。
- 指令lcmp针对long型整数,由于long型整数没有NaN值,故无需准备两套指令。
举例: 指令 fcmpg和fcmpl 都从栈中弹出两个操作数,并将它们做比较;设栈顶的元素为v2,栈顶顺位第2位的元素为v1
- 若v1=v2,则压入0
- 若v1>v2则压入1
- 若v1<v2则压入-1
- 两个指令的不同之处在于,如果遇到NaN值, fcmpg压入1,而fcmpl会压入-1
补充说明:
NaN
:由于在计算除法运算时,分母为0,导致结果是个无穷大的数,无法显示就用NaN代替了。
数值类型的数据,才可以谈大小! ( byte\short \char\int; long\float\double)
boolean、引用数据类型不能比较大小。
类型转换指令
类型转换指令可以将两种不同的数值类型进行相互转换。 这些转换操作一般用于实现用户代码中的显式类型转换操作,或者用来处理字节码指令集中数据类型相关指令无法与数据类型一一对应的问题。
宽化类型转换
-
转换规则:
Java虚拟机直接支持以下数值的宽化类型转换(widening numeric conversion, 小范围类型向大范围类型的安全转换)。也就是说,并不需要指令执行,包括:
- 从int类型到long、float或者double类型。对应的指令为: i21、 i2f、 i2d
- 从long类型到float、 double类型。对应的指令为: l2f、 l2d
- 从float类型到double类型。对应的指令为: f2d
- 精度损失问题
- 宽化类型转换是不会因为超过目标类型最大值而丢失信息的,例如,从int转换到long, 或者从int转换到double,都不会丢失任何信息,转换前后的值是精确相等的。
- 从int、long类型数值转换到float,或者long类型数值转换到double时,将可能发生精度丢失—-可能丢失掉几个最低有效位上的值,转换后的浮点数值是根据IEEE754标准最接近舍入模式所得到的正确整数值。
- 尽管宽化类型转换实际上是可能发生精度丢失的,但是这种转换永远不会导致Java虚拟机抛出运行时异常。
- 补充说明
- 从byte、char和short类型到int类型的宽化类型转换实际上是不存在的。对于byte类型转为int,虚拟机并没有做实质性的转化处理,只是简单地通过操作数栈交换了两个数据。而将byte转为long时,使用的是i2l, 可以看到在内部byte在这里已经等同于int类型处理,类似的还有short类型,这种处理方式有两个特点:
- 一方面可以减少实际的数据类型,如果为short和byte都准备一套指令,那么指令的数量就会大增,而虚拟机目前的设计上,只愿意使用一个字节表示指令,因此指令总数不能超过256个,为了节省指令资源,将short和byte当做int处理也在情理之中。
- 另一方面,由于局部变量表中的槽位固定为32位,无论是byte或者short存入局部变量表,都会占用32位空间。从这个角度说,也没有必要特意区分这几种数据类型。
- 从byte、char和short类型到int类型的宽化类型转换实际上是不存在的。对于byte类型转为int,虚拟机并没有做实质性的转化处理,只是简单地通过操作数栈交换了两个数据。而将byte转为long时,使用的是i2l, 可以看到在内部byte在这里已经等同于int类型处理,类似的还有short类型,这种处理方式有两个特点:
窄化类型转换
-
转换规则
Java虚拟机也直接支持以下窄化类型转换:
- 从int类型至byte、 short或者char类型。对应的指令有: i2b、 i2s、i2s
- 从long类型到int类型。 对应的指令有: l2i
- 从float类型到int或者long类型。对应的指令有: f2i、 f2l
- 从double类型到int、long或者float类型。对应的指令有: d2i、d2l、d2f
- 精度损失问题
- 窄化类型转换可能会导致转换结果具备不同的正负号、不同的数量级,因此,转换过程很可能会导致数值丢失精度。
- 尽管数据类型窄化转换可能会发生上限溢出、下限溢出和精度丢失等情况,但是Java虚拟机规范中明确规定数值类型的窄化转换指令永远不可能导致虚拟机抛出运行时异常
-
补充说明
1)当将一个浮点值窄化转换为整数类型T (T限于int或long类型之一)的时候,将遵循以下转换规则:
- 如果浮点值是NaN,那转换结果就是int或long类型的0。
- 如果浮点值不是无穷大的话,浮点值使用IEEE 754的向零舍入模式取整,获得整数值v,如果v在目标类型T (int或long)的表示范围之内,那转换结果就是v。否则,将根据v的符号,转换为T所能表示的最大或者最小正数
2)当将一个double 类型窄化转换为float 类型时,将遵循以下转换规则;通过向最接近数舍入模式舍入一个可以使用float类型表示的数字。最后结果根据下面这3条规则判断:
- 如果转换结果的绝对值太小而无法使用 float来表示,将返回float类型的正负零。
- 如果转换结果的绝对值太大而无法使用float来表示, 将返回float类型的正负无穷大。
- 对于double类型的NaN值将按规定转换为float类型的NaN值。
public void downCast2(){
float f = 10;
long l = (long)f;
int i = (int)f;
byte b = (byte)f;
double d = 10;
byte b1 = (byte)d;
}
0 ldc #12 <10.0>
2 fstore_1
3 fload_1
4 f2l
5 lstore_2
6 fload_1
7 f2i
8 istore 4
10 fload_1
11 f2i // ⚠️ flaot int 转化为 byte 需要f2i i2b两步
12 i2b
13 istore 5
15 ldc2_w #13 <10.0>
18 dstore 6
20 dload 6
22 d2i
23 i2b
24 istore 8
26 return
对象的创建与访问指令
Java是面向对象的程序设计语言,虚拟机平台从字节码层面就对面向对象做了深层次的支持。有一系列指令专门用于对操作,可进一步细分为创建指令、 字段访问指令、数组操作指令、类型检查指令。
创建指令
虽然类实例和数组都是对象,但Java虛拟机对类实例和数组的创建与操作使用了不同的字节码指令:
- 创建类实例的指令:
- 创建类实例的指令: new
- 它接收一个操作数,为指向常量池的索引,表示要创建的类型,执行完成后,将对象的引用压入栈。
- 创建类实例的指令: new
- 创建数组的指令:
- 创建数组的指令: newarray、anewarray、multianewarray
- newarray:创建基本类型数组
- anewarray:创建引用类型数组
- multianewarray: 创建多维数组
- 创建数组的指令: newarray、anewarray、multianewarray
上述创建指令可以用于创建对象或者数组,由于对象和数组在Java中的广泛使用,这些指令的使用频率也非常高。
/********对象创建过程解析********/
public void newInstance() {
Object obj = new Object();
File file = new File("atguigu.avi");
}
// 字节码
0 new #2 <java/lang/Object> // 在堆空间创建一个Object类型的实例,并把它的地址值放入操作数栈
3 dup // 将操作数栈顶的引用复制一份,压入操作数栈
4 invokespecial #1 <java/lang/Object.<init>> // 调用构造方法,弹出操作数栈栈顶元素
7 astore_1 // 把操作数栈顶的引用放入局部变量表索引1位置
8 new #3 <java/io/File>
11 dup
12 ldc #4 <atguigu.avi> // 将String类型的atguigu.avi压入操作数栈
14 invokespecial #5 <java/io/File.<init>> // 调用构造方法,弹出一个引用和atguigu.avi
17 astore_2
18 return
/********数组创建过程解析********/
public void newArray() {
int[] intArray = new int[10];
Object[] objArray = new Object[10];
int[][] mintArray = new int[10][10];
String[][] strArray = new String[10][];
}
// 字节码
0 bipush 10
2 newarray 10 (int) // 创建基本类型数组
4 astore_1
5 bipush 10
7 anewarray #2 <java/lang/Object> // 创建引用类型数组
10 astore_2
11 bipush 10
13 bipush 10
15 multianewarray #6 <[[I> dim 2 // 创建多维数组
19 astore_3
20 bipush 10
22 anewarray #7 <[Ljava/lang/String;> // ⚠️new String[10][]; 创建一维的引用类型数组,二维未初始化
25 astore 4
27 return
字段访问指令
对象创建后,就可以通过对象访问指令获取对象实例或数组实例中的字段或者数组元素。
- 访问类字段(static字段,或者称为类变量)的指令: getstatic、 putstatic
- 访问类实例字段(非static字段,或者称为实例变量)的指令: getfield、 putfield
举例: 以getstatic指令为例,它含有一个操作数,为指向常量池的Fieldref索引,它的作用就是获取Fieldref指定的对象或者值,并将其压入操作数栈。
public void sayHello(){
System.out.println("hello");
}
// 字节码
0 getstatic #8 <java/lang/System.out>
1 ldc #9 <hello>
2 invokervirtual #10 <java/io/PrintStream.println>
3 return
图示:
数组操作指令
数组操作指令主要有: xastore和xaload指令。具体为:
- 把一个数组元素加载到操作数栈的指令: baload、 caload、 saload、 iaload、 laload、 faload、daload、aaload
- 将一个操作数栈的值存储到数组元素中的指令: bastore、castore、 sastore、iastore、 lastore、fastore、dastore、 aastore
- 取数组长度的指令: arraylength;该指令弹出栈顶的数组元素, 获取数组的长度,将长度压入栈。
2.说明
- 指令xaload表示将数组的元素压栈,比如saload、caload分别表示压入short数组和char数组。指令 xaload在执行时,要求操作数中栈顶元素为数组索引i,栈顶顺位第2个元素为数组引用a,该指令会弹出栈顶这两个元素,并将a[i]重新压入堆栈。
- xastore则专门针对数组操作,以iastore为例, 它用于给一个int数组的给定索引赋值。在iastore执行前,操作数栈顶需要以此准备3个元素:值、索引、数组引用,iastore 会弹出这3个值,并将值赋给数组中指定索引的位置。
public void setArray() {
int[] intArray = new int[10];
intArray[3] = 20;
System.out.println(intArray[1]);
boolean[] arr = new boolean[10];
arr[1] = true;
}
// 字节码
0 bipush 10 // 把10压入操作数栈
2 newarray 10 (int) // 在堆空间创建一个数组,并把引用压入操作数栈
4 astore_1 // 把数组索引放入局部变量表索引1
5 aload_1 // 把局部变量表的数组索引压栈
6 iconst_3 // 把常量3压栈
7 bipush 20 // 把整型20压栈
9 iastore // 弹出值、索引、数组引用,完成赋值 intArray[3] = 20;
10 getstatic #8 <java/lang/System.out>
13 aload_1
14 iconst_1
15 iaload
16 invokevirtual #14 <java/io/PrintStream.println>
19 bipush 10
21 newarray 4 (boolean)
23 astore_2
24 aload_2
25 iconst_1
26 iconst_1
27 bastore // 存储byte和boolean类型都使用bastore
28 return
类型检查指令
检查类实例或数组类型的指令: instanceof、 checkcast.
- 指令checkcast用于检查类型强制转换是否可以进行。如果可以则进行强制转换,那么checkcast指令不会改变操作数栈;否则它会抛出ClassCastException异常。
- 指令instanceof用来判断给定对象是否是某一个类的实例,它会将判断结果压入操作数栈。
public String checkCast(Object obj) {
if (obj instanceof String) {
return (String) obj;
} else {
return null;
}
}
// 字节码
0 aload_1 // 把局部变量表的obj压栈
1 instanceof #17 <java/lang/String> // 判断obj是不是String类型的实例,完成后弹出
4 ifeq 12 (+8) // 如果满足直接往下走,不满足跳转至12
7 aload_1 // 把obj的实例压栈
8 checkcast #17 <java/lang/String> // 检查能否强转,可以则进行转换
11 areturn // 返回引用类型 所以是areturn
12 aconst_null
13 areturn
方法调用与返回指令
方法调用指令
方法调用指令: invokevirtual、 invokeinterface. invokespecial、 invokestatic 、invokedynamic
以下5条指令用于方法调用:
invokevirtual
指令用于调用对象的实例方法, 根据对象的实际类型进行分派(虚方法分派),支持多态。这也是Java语言中最常见的方法分派方式。invokeinterface
指令用于调用接口方法,它会在运行时搜索由特定对象所实现的这个接口方法,并找出适合的方法进行调用。invokespecial
指令用于调用一些需要特殊处理的实例方法,包括实例初始化方法(构造器)、私有方法和父类方法。这些方法都是静态类型绑定的(因为不能被重写),不会在调用时进行动态派发。invokestatic
指令用于调用命名类中的类方法(static方法)。这是静态绑定的。invokedynamic
调用动态绑定的方法,这个是JDK 1.7后新加入的指令。用于在运行时动态解析出调用点限定符所引用的方法,并执行该方法。前面4条调用指令的分派逻辑都固化在java 虚拟机内部,而invokedynamic指令的分派逻辑是由用户所设定的引导方法决定的。
补充说明:接口的静态方法和默认方法调用的是invokestatic和invokeinterface。
public void invoke1(){
//情况1:类实例构造器方法:<init>()
Date date = new Date();
Thread t1 = new Thread();
//情况2:父类的方法
super.toString();
//情况3:私有方法
methodPrivate();
}
private void methodPrivate(){}
// 字节码
0 new #2 <java/util/Date>
3 dup
4 invokespecial #3 <java/util/Date.<init>>
7 astore_1
8 new #4 <java/lang/Thread>
11 dup
12 invokespecial #5 <java/lang/Thread.<init>>
15 astore_2
16 aload_0
17 invokespecial #6 <java/lang/Object.toString>
20 pop
21 aload_0
22 invokespecial #7 <com/atguigu/java/MethodInvokeReturnTest.methodPrivate>
25 return
方法返回指令
方法调用结束前,需要进行返回。方法返回指令是根据返回值的类型区分的。
- 包括ireturn (当返回值是boolean、 byte、 char、 short和int 类型时使用)、lreturn、 freturn、dreturn和areturn
- 另外还有一条return指令供声明为void的方法、实例初始化方法以及类和接口的类初始化方法使用。
举例:
通过ireturn指令,将当前函数操作数栈的顶层元素弹出,并将这个元素压入调用者函数的操作数栈中(因为调用者非常关心函数的返回值),所有在当前函数操作数栈中的其他元素都会被丢弃。
⚠️ 如果当前返回的是synchronized方法,那么还会执行一个隐含的monitorexit指令,退出临界区。
最后,会丢弃当前方法的整个帧,恢复调用者的帧,并将控制权转交给调用者。
操作数栈管理指令
如同操作一个普通数据结构中的堆栈那样,JVM提供的操作数栈管理指令,可以用于直接操作操作数栈的指令。
这类指令包括如下内容:
- 将一个或两个元素从栈顶弹出,并且直接废弃: pop, pop2
- 复制栈项一个或两个数值并将复制值或双份的复制值重新压入栈顶: dup, dup2, dup_x1,dup2_x1, dup_x2, dup2_x2;
- 将栈最顶端的两个Slot数值位置交换: swap。Java 虚拟机没有提供交换两个64位数据类型(long、double) 数值的指令。
- 指令nop,是一个非常特殊的指令,它的字节码为0x00。和汇编语言中的nop一样, 它表示什么都不做。这条指令般可用于调试、占位等。
这些指令属于通用型,对栈的压入或者弹出无需指明数据类型。
说明:
- 不带
_x
的指令是复制栈顶数据并压入栈顶。包括两个指令,dup和dup2。dup的系数代表要复制的Slot个数。- dup开头的指令用于复制1个Slot的数据。 例如1个int或1个reference类型数据
- dup2开头的指 令用于复制2个Slot的数据。例如1个long,或2个int, 或1个int+1个
- 带
_x
的指令是复制栈顶数据并插入栈顶以下的某个位置。共有4个指令,dup_ x1, dup2_ x1, dup_ x2,dup2_ x2. 对于带x的复制插入指令,只要将指令的dup和x的系数相加,结果即为需要插入的位置。因此- dup_ x1插入位置: 1+1=2, 即栈顶2个Slot下面
- dup_ x2插入位置: 1+2=3, 即栈顶3个Slot下面
- dup2_ x1插入位置: 2+1=3, 即栈顶3个Slot下面
- dup2_ x2插入位置: 2+2=4, 即栈项4个Slot下面
- pop:将栈顶的1个Slot数值出栈。例如1个short类型数值
- pop2:将栈项的2个Slot数值出栈。例如1个double类型数值,或者2个int类型数值
private long index = 0;
public long nextIndex() {
return index++;
}
// 字节码
0 aload_0 // 加载索引为0的this压栈
1 dup // 复制一份this
2 getfield #2 <com/atguigu/java/StackOperateTest.index> // this.index压栈(占2个槽),弹出当前的对象
5 dup2_x1 // 复制一份index,并把它插入到从栈顶往下的第三个槽位之下
6 lconst_1 // 常量1压栈(long占用两个槽位)
7 ladd // 压入0+1=1,弹出index和常量1
8 putfield #2 <com/atguigu/java/StackOperateTest.index> // 弹出this.index
11 lreturn // 返回index:0
控制转移指令
程序流程离不开条件控制,为了支持条件跳转,虚拟机提供了大量字节码指令,大体上可以分为 1)比较指令、2)条件跳转指令、3)比较条件跳转指令、4)多条件分支跳转指令、5)无条件跳转指令等。
条件跳转指令
条件跳转指令通常和比较指令结合使用。在条件跳转指令执行前,一般可以先用比较指令进行栈顶元素的准备,然后进行条件跳转。
条件跳转指令有: ifeq, iflt, ifle, ifne, ifgt, ifge
, ifnull, ifnonnull
。 这些指令都接收两个字节的操作数,用于计算跳转的位置(16位符号整数作为当前位置的offset)。
它们的统一 含义为:弹出栈顶元素,测试它是否满足某一条件,如果满足条件,则跳转到给定位置。
具体说明:
注意:
- 与前面运算规则一致:
- 对于boolean、byte、char、 short类型的条件分支比较操作,都是使用int类型的比较指令完成
- 对于long、 float、 double类型的条件分支比较操作,则会先执行相应类型的比较运算指令,运算指令会返回一个整型值到操作数中,随后再执行int类型的条件分支比较操作来完成整个分支跳转
- 由于各类型的比较最终都会转为int类型的比较操作,所以ava虚拟机提供的int类型的条件分支指令是最为丰富和强大的。
比较条件跳转指令
比较条件跳转指令类似于比较指令和条件跳转指令的结合体,它将比较和跳转两个步骤合二为一。
这类指令有: if_icmpeq、 if_icmpne、 if_icmplt、 if_icmpgt、 if_icmple、 if_icmpge
、if_acmpeq和if_acmpne
。其中指令助记符加上if_
后, 以字符“i”开头的指令针对int型整数操作(也包括short和byte类型),以字符“a”
开头的指令表示对象引用的比较。
具体说明:
这些指令都接收两个字节的操作数作为参数,用于计算跳转的位置。同时在执行指令时,栈顶需要准备两个元素进行比较。指令执行完成后,栈顶的这两个元素被清空,且没有任何数据入栈。如果预设条件成立,则执行跳转,否则,继续执行下一条语句。
多条件分支跳转
多条件分支跳转指令是专为switch一case语句设计的,主要有tableswitch和lookupswitch。
从助记符上看,两者都是switch语句的实现,它们的区别:
tableswitch
要求多 个条件分支值是连续的,它内部只存放起始值和终止值,以及若干个跳转偏移量,通过给定的操作数index,可以立即定位到跳转偏移量位置,因此效率比较高。- 指令
lookupswitch
内部存放着各个离散的case-offset
对,每次执行都要搜索全部的case-offset
对,找到匹配的case值,并根据对应的offset计算跳转地址,因此效率较低。
指令tableswitch
的示意图如下图所示。由于tableswitch
的case值是连续的,因此只需要记录最低值和最高值,以及每一项对应的offset偏移量,根据给定的index值通过简单的计算即可直接定位到offset.
指令lookupswitch处理的是离散的case值,但是出于效率考虑,将case-offset
对按照case 值大小排序,给定index时需要查找与index相等的case,获得其offset ,如果找不到则跳转到default. 指令lookupswitch如下图所示。
//jdk7新特性:引入String类型
public void swtich3(String season){
switch(season){
case "SPRING":break;
case "SUMMER":break;
case "AUTUMN":break;
case "WINTER":break;
}
}
// 字节码
0 aload_1
1 astore_2
2 iconst_m1
3 istore_3
4 aload_2
5 invokevirtual #11 <java/lang/String.hashCode>
8 lookupswitch 4 // ⚠️ 先把String按照hashCode方法计算hash值,hash值相同再调用equals方法
-1842350579: 52 (+44)
-1837878353: 66 (+58)
-1734407483: 94 (+86)
1941980694: 80 (+72)
default: 105 (+97)
52 aload_2
53 ldc #12 <SPRING>
55 invokevirtual #13 <java/lang/String.equals>
58 ifeq 105 (+47)
61 iconst_0
62 istore_3
63 goto 105 (+42)
66 aload_2
67 ldc #14 <SUMMER>
69 invokevirtual #13 <java/lang/String.equals>
72 ifeq 105 (+33)
75 iconst_1
76 istore_3
77 goto 105 (+28)
80 aload_2
81 ldc #15 <AUTUMN>
83 invokevirtual #13 <java/lang/String.equals>
86 ifeq 105 (+19)
89 iconst_2
90 istore_3
91 goto 105 (+14)
94 aload_2
95 ldc #16 <WINTER>
97 invokevirtual #13 <java/lang/String.equals>
100 ifeq 105 (+5)
103 iconst_3
104 istore_3
105 iload_3
106 tableswitch 0 to 3 0: 136 (+30)
1: 139 (+33)
2: 142 (+36)
3: 145 (+39)
default: 145 (+39)
136 goto 145 (+9)
139 goto 145 (+6)
142 goto 145 (+3)
145 return
无条件跳转
目前主要的无条件跳转指令为goto。指令goto接收两个字节的操作数,共同组成一个带符 号的整数,用于指定指令的偏移量指令执行的目的就是跳转到偏移量给定的位置处。
如果指令偏移量太大,超过双字节的带符号整数的范围,则可以使用指令goto_w
, 它和goto有相同的作用,但是它接收4个字节的操作数,可以表示更大的地址范围。
指令jsr、jsr_w、ret
虽然也是无条件跳转的,但主要用于try-finally
语句,且已经被虚拟机逐渐废弃,故不在这里介绍这两个指令。
异常处理指令
抛出异常指令
-
athrow指令
在Java程序中显示抛出异常的操作(throw语句)都是由athrow指令来实现。
除了使用throw语句显示抛出异常情况之外,JVM规范还规定了许多运行时异常会在其他Java虚拟机指令检测到异常状况时自动抛出。例如,在之前介绍的整数运算时,当除数为零时,虚拟机会在idiv或 ldiv指令中抛出
ArithmeticException
异常。 -
注意
正常情况下,操作数栈的压入弹出都是一条条指令完成的。唯一的例外情况是在抛异常时,Java虚拟机会清除操作数栈上的所有内容,而后将异常实例压入调用者操作数栈上。
异常及异常的处理:
过程一:异常对象的生成过程 –> throw (手动/自动) –> 指令: athrow
过程二:异常的处理:抓抛模型。try-catch-finally
–> 使用异常表
public void throwZero(int i){
if(i == 0){
throw new RuntimeException("参数值为0");
}
}
// 字节码
0 iload_1
1 ifne 14 (+13) // 判断i否等于0;不是跳转至第14行
4 new #2 <java/lang/RuntimeException> // 堆中创建一场对象,并把其引用压栈
7 dup // 复制一份引用
8 ldc #3 <参数值为0> // 压入字符串引用
10 invokespecial #4 <java/lang/RuntimeException.<init>> // 异常构造方法
13 athrow // 抛出异常,引用出栈
14 return
public void throwArithmetic() {
int i = 10;
int j = i / 0;
System.out.println(j);
}
// 字节码
// ⚠️ 对于系统已经定义好的异常,会自动抛出,而不使用athrow 指令
0 bipush 10
2 istore_1
3 iload_1
4 iconst_0
5 idiv
6 istore_2
7 getstatic #6 <java/lang/System.out>
10 iload_2
11 invokevirtual #7 <java/io/PrintStream.println>
14 return
异常处理与异常表
-
处理异常:
在Java虚拟机中,处理异常(catch语句)不是由字节码指令来实现的(早期使用jsr、ret指令),而是采用异常表来完成的。
-
异常表 如果一个方法定义了一个
try-catch
或者try-finally
的异常处理,就会创建一个异常表。它包含了每个异常处理或者finally块的信息。异常表保存了每个异常处理信息。比如:- 起始位置
- 结束位置
- 程序计数器记录的代码处理的偏移地址
- 被捕获的异常类在常量池中的索引
当一个异常被抛出时,JVM会在当前的方法里寻找一个匹配的处理,如果没有找到,这个方法会强制结束并弹出当前栈帧,并且异常会重新抛给上层调用的方法(在调用方法栈帧)。如果在所有栈帧弹出前仍然没有找到合适的异常处理,这个线程将终止。如果这个异常在最后一个非守护线程里抛出,将会导致JVM自己终止,比如这个线程是个main线程。
不管什么时候抛出异常,如果异常处理最终匹配了所有异常类型,代码就会继续执行。在这种情况下,如果方法结束后没有抛出异常,仍然执行finally块,在return前, 它直接跳到finally块来完成目标
举例:
public void tryCatch(){
try{
File file = new File("d:/hello.txt");
FileInputStream fis = new FileInputStream(file);
String info = "hello!";
}catch (FileNotFoundException e) {
e.printStackTrace();
}
catch(RuntimeException e){
e.printStackTrace();
}
}
// 字节码
0 new #8 <java/io/File> // Start PC
3 dup
4 ldc #9 <d:/hello.txt>
6 invokespecial #10 <java/io/File.<init>>
9 astore_1
10 new #11 <java/io/FileInputStream>
13 dup
14 aload_1
15 invokespecial #12 <java/io/FileInputStream.<init>>
18 astore_2
19 ldc #13 <hello!>
21 astore_3
22 goto 38 (+16) // End PC ⚠️ 即try包围的部分
25 astore_1 // FileNotFoundException 异常处理部分
26 aload_1
27 invokevirtual #15 <java/io/FileNotFoundException.printStackTrace>
30 goto 38 (+8)
33 astore_1 // RuntimeException 异常处理部分
34 aload_1
35 invokevirtual #16 <java/lang/RuntimeException.printStackTrace>
38 return
异常表:
同步控制指令
java虚拟机支持两种同步结构:方法级的同步和方法内部一段指令序列的同步,这两种同步都是使用monitor(同步监视器)来支持的。
方法级的同步
方法级的同步:是隐式的,即无须通过字节码指令来控制,它实现在方法调用和返回操作之中。虚拟机可以从方法常量池的方法表结构中的ACC_SYNCHRONIZED
访问标志得知一个 方法是否声明为同步方法;
当调用方法时,调用指令将会检查方法的ACC_SYNCHRONIZED
访问标志是否设置。
- 如果设置了,执行线程将先持有同步锁,然后执行方法。最后在方法完成(无论是正常完成还是非正常完成)时释放同步锁。
- 在方法执行期间,执行线程持有了同步锁,其他任何线程都无法再获得同一个锁。
- 如果一个同步方法执行期间抛出了异常,并且在方法内部无法处理此异常,那这个同步方法所持有的锁将在异常抛到同步方法之外时自动释放。
举例:
这段代码和普通的无同步操作的代码没有什么不同,没有使用monitorenter和monitorex进进行同步区控制。这是因为,对于同步方法而言,当虚拟机通过方法的访问标示符判断是一个同步方法时,会自动在方法调用前进行加锁,当同步方法执行完毕后,不管方法是正常结束还是有异常抛出,均会由虚拟机释放这个锁。因此,对于同步方法而言,monitorenter 和monitorexit指令是隐式存在的,并未直接出现在字节码中。
public class SynchronizedTest {
private int i = 0;
public synchronized void add(){
i++;
}
}
// 字节码 add 方法
0 aload_0
1 dup
2 getfield #2 <com/atguigu/java1/SynchronizedTest.i>
5 iconst_1
6 iadd
7 putfield #2 <com/atguigu/java1/SynchronizedTest.i>
10 return
方法内指定指令序列的同步
同步一段指令集序列:通常是由java中的synchronized语句块来表示的。jvm的指令集有monitorenter 和monitorexit两条指令来支持synchronized关键字的语 义。
当一个线程进入同步代码块时,它使用monitorenter指令请求进入。如果当前对象的监视器计数器为0,则它会被准许进入,若为1,则判断持有当前监视器的线程是否为自己,如果是,则进入,否则进行等待,直到对象的监视器计数器为0,才会被允许进入同步块。
当线程退出同步块时,需要使用monitorexit声明退出。在Java虚拟机中,任何对象都有一个监视器与之相关联,用来判断对象是否被锁定,当监视器被持有后,对象处于锁定状态。
指令monitorenter和monitorexit在执行时,都需要在操作数栈顶压入对象,之后monitorenter和monitorexit的锁定和释放都是针对这个对象的监视器进行的。 下图展示了监视器如何保护临界区代码不同时被多个线程访问,只有当线程4离开临界区后,线程1、2、3才有可能进入
举例:
编译器必须确保无论方法通过何种方式完成,方法中调用过的每条monitorenter指令都必须执行其对应的monitorexit指令,而无论这个方法是正常结束还是异常结束。
为了保证在方法异常完成时monitorenter和monitorexit指令依然可以正确配对执行,编译器会自动产生一个异常处理器,这个异常处理器声明可处理所有的异常,它的目的就是用来执行monitorexit指令
public class SynchronizedTest {
private int i = 0;
private Object obj = new Object();
public void subtract(){
synchronized (obj){
i--;
}
}
}
// 字节码 subtract 方法
0 aload_0 // 从局部变量表索引0位置获取当前对象压栈this
1 getfield #4 <com/atguigu/java1/SynchronizedTest.obj> // 获取this.obj的引用 并压栈
4 dup // 复制一份obj
5 astore_1 // 把复制的obj弹出放入局部变量表索引1
6 monitorenter // 进入监视器 针对obj对象而言(对象头中包含了锁状态表识从0改为1,并记录是哪个线程修改的)
7 aload_0 // 从局部变量表索引0位置获取当前对象压栈this
8 dup // 复制一份this
9 getfield #2 <com/atguigu/java1/SynchronizedTest.i> // 弹出复制的this并获取this.i压栈
12 iconst_1 // 压入常量1
13 isub // this.i 和 1 做减法
14 putfield #2 <com/atguigu/java1/SynchronizedTest.i> // 弹出this和减法的结果 给this.i赋值
17 aload_1 // 把锁对象obj压栈
18 monitorexit // 把对象头中的锁状态表识从1改为0
19 goto 27 (+8) // 去27行
//⚠️ 同步异常处理部分,防止死锁
22 astore_2 // 把异常对象引用放入局部变量表索引2
23 aload_1 // obj压栈
24 monitorexit // 把对象头中的锁状态表识从1改为0
25 aload_2 // 异常对象引用压栈
26 athrow // 抛出异常
27 return
既已览卷至此,何不品评一二: