前言

“Write Once, Run Anywhere”,这是Java刚诞生时提出的一个非常著名的宣传口号。各种不同平台的虚拟机与所有平台都统一使用的程序存储格式——字节码是构成平台无关性的基石。而使用Java编译器可以将Java代码编译成存储字节码的Class文件,本文我们来探析一下Class文件。

Java类文件结构

Class文件是一组以8个字节为基础单位的二进制流。Class文件采用一种类似于C语言结构体的伪结构来存储,这种伪结构只有两种数据类型:

  • 无符号数

无符号数属于基本的数据类型,以u1、u2、u4、u8来分别表示1个字节、2个字节、4个字节、8个字节的无符号数。

表是由多个无符号数或者其他表作为数据项构成的符合数据类型,所有表都习惯性地以“_info”结尾。

Class文件结构

官方文档中给出的Class文件结构如下:

ClassFile {
    u4             magic;
    u2             minor_version;
    u2             major_version;
    u2             constant_pool_count;
    cp_info        constant_pool[constant_pool_count-1];
    u2             access_flags;
    u2             this_class;
    u2             super_class;
    u2             interfaces_count;
    u2             interfaces[interfaces_count];
    u2             fields_count;
    field_info     fields[fields_count];
    u2             methods_count;
    method_info    methods[methods_count];
    u2             attributes_count;
    attribute_info attributes[attributes_count];
}

魔数、次版本和主版本

java模拟实现一个文件系统用一个TXT文件来模拟硬盘_属性表

  • 每个Class文件的头4个字节称为魔数(Magic Number),唯一作用是用于确定这个文件是否为一个能被虚拟机接受的Class文件。
  • 紧接着魔数的4个字节是Class文件版本号。前2字节用于表示次版本号,后2字节用于表示主版本号。

常量池

常量池是Class文件结构中与其它项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一,同时它还是在文件中第一个出现的表类型数据项目。

由于常量池中常量的数量是不固定的,所以在常量池的入口需要放置一项u2类型的数据,代表常量池容量计数值(constant_pool_count)。

Class文件只有常量池的容器计数是从1开始的。第0项腾出来满足后面某些指向常量池的索引值的数据在特定情况下需要表达”不引用任何一个常量池项目”的意思,这种情况就可以把索引值置为0来表示。

常量池之中主要存放两大类常量:

  • 字面量: 比较接近于Java语言层面的常量概念,如文本字符串、被声明为final的常量值等;
  • 符号引用: 属于编译原理方面的概念,包括了下面三类常量:
    ①.类和接口的全限定名
    ②.字段的名称和描述符
    ③.方法的名称和描述符

常量池中的每一项都拥有如下通用结构:

cp_info {
    u1 tag;
    u1 info[];
}

其中tag(标志)的取值如下图:

java模拟实现一个文件系统用一个TXT文件来模拟硬盘_字段_02

CONSTANT_Class_info {
    u1 tag;
    u2 name_index;
}

CONSTANT_Fieldref_info {
    u1 tag;
    u2 class_index;
    u2 name_and_type_index;
}
……

访问标志

java模拟实现一个文件系统用一个TXT文件来模拟硬盘_字段_03


常量池之后的2个字节代表访问标志access_flags,这个标志主要用于识别一些类或接口层次的访问信息,主要包括:这个Class是类还是接口;是否定义public;是否定义abstract类型;如果是类的话是否被声明为final等。

类索引、父类索引和接口索引集合

类索引、父类索引和接口索引集合按照顺序排列在访问标志之后,类索引和父类索引用两个u2类型的值表示,它们各自指向一个类型为CONSTANT_Class_info的类描述符常量,这个常量中保存的索引值可以找到定义在CONSTANT_Utf8_info类型的常量中的全限定名字符串。

对于接口索引集合,入口的第一项——u2类型的数据为接口计数器,表示索引表的容量。如果该类没有实现任何接口,则该计数器值为0,并且后面的接口的索引集合将不占用任何字节。

字段表集合

java模拟实现一个文件系统用一个TXT文件来模拟硬盘_属性表_04


字段表用于描述接口或者类中声明的变量。字段包括类级变量以及实例级变量,但不包括方法内部声明的局部变量。

java中描述一个字段包含的信息有:

  • 字段的作用域(public,protected,private)
  • 实例变量还是类变量(static)
  • 可变性(final)
  • 并发可见性(volatile)
  • 可否序列化(transient)
  • 字段数据类型(基本类型,对象,数组)
  • 字段名称

字段表中每一项都拥有如下结构:

field_info {
    u2             access_flags;
    u2             name_index;
    u2             descriptor_index;
    u2             attributes_count;
    attribute_info attributes[attributes_count];
}

方法表

java模拟实现一个文件系统用一个TXT文件来模拟硬盘_常量池_05


方法表的结构与字段表一样,依次包括了访问标志(access_flags)、名称索引(name_index)、描述符索引(descriptor_index)、属性表集合(attributes)这几项。

方法表中的每一项都拥有如下结构:

method_info {
    u2             access_flags;
    u2             name_index;
    u2             descriptor_index;
    u2             attributes_count;
    attribute_info attributes[attributes_count];
}

属性表

前面的Class文件、字段表和方法表都可以携带自己的属性信息,这个信息用属性表进行描述,用于描述某些场景专有的信息。

与Class文件中其它数据项对长度、顺序、格式的严格要求不同,属性表集合不要求其中包含的属性表具有严格的顺序,并且只要属性的名称不与已有的属性名称重复,任何人实现的编译器可以向属性表中写入自己定义的属性信息。

对于每个属性,它的名称需要从一个常量池中引用一个CONSTANT_Utf8_info类型的常量来表示,而属性值的结构则是完全自定义的,只需要通过一个u4的长度属性去说明属性值所占用的位数即可。

属性表结构如下所示:

attribute_info {
    u2 attribute_name_index;
    u4 attribute_length;
    u1 info[attribute_length];
}

总结

Class文件是平台无关性的基石,了解Class文件结构有助于认识JVM的类加载机制。本文大体介绍了Class文件的存储结构,希望能帮助读者提升对Class文件的认识。