简介:
先看一张Javc编译成class文件的时候流程图
image.png
至于什么是token流,语法树相关可以参考我之前的两篇帖子。
如何下载JavaC源码?
也可以直接在我的在我的项目库内部进行下载,地址见下文。
Javac主要有四个模块,分别是词法分析器,语法分析器,语义分析器和代码生成器。
JavaC JavaParser
用途:
把Java源码转换成 JavaParser定义的Statement对象,
也就是将java源码解析成一颗语法树,然后基于这棵树对java代码进行分析和修改的工具。
在javac 编译时候使用到
重点类介绍
语法树简介:
在学习之前需要知道什么是语法树,很简单的代码如下,在解析的时候主要分为两步
“1 + 2 * 3”
第一步: +, 1,(2 * 3)
第二步: +, 1,(*, 2, 3)
语法树
com.sun.tools.java.tree.JCTree
用于表示最终的语法树,结构,里面有很多内部类。
比如com.sun.tools.java.tree.JCTree$JCCompilationUnit,在AST中,你可以把这个类看成是AST的根节点
插入式注解器简介
Jdk1.5后引入注解功能,注解是一种应用字节码 属性中类的元数据进行操作的一种编程机制。
处理表形成后 会自动检测是否有注解器需要执行,若有则执行注解处理器。注解处理器实现了在可插入式的编译期改变编译过程的功能。
其本质就是 再次修改 处理表中的语法树。 一旦语法树被修改,则将再次进行 词法,语法分析并填充符号表的过程,直到所有插件对语法树进行修改完为止。
初始化过程入口是 initPorcessAnnotations()
执行过程入口是 processAnnotations()
该方法判断是否有新的注解处理器需要执行,若有的,则通过com.sun.tools.方法生成新的JavaCompiler对象对编译的后续步骤进行处理
JavaC 词法分析
词法分析主要是将代码转换成token
词法分析过程主要是在的JavacParser.parseCompilationUnit()中完成的
入口是parseFiles()
词法分析实现类是com.sun.tools.javac.parser.Scanner类
语法分析实现类是com.sun.tools.javac.parser.Parser类
出口由com.sun.tools.javac.tree.JCTree类表示
重点介绍下面几个类,是构成词法分析的关键
先介绍词法分析“大管家”
com.sun.tools.javac.parser.ParserFactory
存放着很多的解析器比如token,源文件,名字注解之类的。
通过静态方法单例进行初始化
//获取实类的单例方法
public static ParserFactory instance(Context context) {
ParserFactory instance = context.get(parserFactoryKey);
if (instance == null) {
instance = new ParserFactory(context);
}
return instance;
}
//创建的时候在构造方法内部,将词法分析需要的一些类进行初始化
//在编译的时候全部的解析器包括,生成器,各种工具类,都是全局唯一的单例模式
protected ParserFactory(Context context) {
super();
context.put(parserFactoryKey, this);
this.F = TreeMaker.instance(context);
this.docTreeMaker = DocTreeMaker.instance(context);
this.log = Log.instance(context);
this.names = Names.instance(context);
this.tokens = Tokens.instance(context);
this.source = Source.instance(context);
this.options = Options.instance(context);
this.scannerFactory = ScannerFactory.instance(context);
this.locale = context.get(Locale.class);
}
com.sun.tools.javac.parser.JavacParser
规定哪些词符合Java语言规范,具体读取和归类不同词法的操作由scanner完成
/**
* Skip forward until a suitable stop token is found.
* 核心方法,判断是否是我们需要的token
*/
private void skip(boolean stopAtImport, boolean stopAtMemberDecl, boolean stopAtIdentifier, boolean stopAtStatement) {
com.sun.tools.javac.parser.Scanner
负责逐个读取源代码的单个字符,然后解析符合Java语言规范的Token序列,调用一次nextToken()都构造一个Token
内部有个List 储存读取到的token信息
/**
* Buffer of saved tokens (used during lookahead)
* token的一个缓冲区
*/
private List savedTokens = new ArrayList();
com.sun.tools.javac.parser.Tokens$TokenKind
里面包含了所有token的类型,譬如BOOLEAN,BREAK,BYTE,CASE。用的是枚举的方式进行保存
类似如下:
public enum TokenKind implements Formattable, Filter {
EOF(),
ERROR(),
IDENTIFIER(Tag.NAMED),
ABSTRACT("abstract"),
ASSERT("assert", Tag.NAMED),
BOOLEAN("boolean", Tag.NAMED),
BREAK("break"),
BYTE("byte", Tag.NAMED),
CASE("case"),
CATCH("catch"),
CHAR("char", Tag.NAMED),
CLASS("class"),
CONST("const"),
...
com.sun.tools.javac.parser.Tokens
存放全部的定义token
/**
* The names of all tokens.
* 存放全部token的数组
*/
private Name[] tokenName = new Name[TokenKind.values().length];
com.sun.tools.javac.util.Names
用来存储和表示解析后的词法,每个字符集合都会是一个Name对象,所有的对象都存储在Name.Table这个内部类中。
com.sun.tools.javac.parser.KeyWords
负责将字符集合对应到token集合中,如,package zxy.demo.com; Token.PACKAGE = package, Token.IDENTIFIER = zxy.demo.com,(这部分又分为读取第一个token,为zxy,判断下一个token是否为“.”,是的话接着读取下一个Token.IDENTIFIER类型的token,反复直至下一个token不是”.”,也就是说下一个不是Token.IDENIFIER类型的token,Token.SEMI = ;即这个TIDENTIFIER类型的token的Name读完),KeyWords类负责此任务。
package compile;
public class Cifa {
int a;
int c = a + 1;
}
转换的token流如下
JavaC 语法分析
将token流转换成句子
com.sun.tools.javac.tree.TreeMaker
所有语法节点都是由它生成的,根据Name对象构建一个语法节点
com.sun.tools.javac.tree.JCTree$JCIf
所有的节点都会继承jctree和实现**tree,譬如 JCIf extends JCTree.JCStatement implements IfTree
com.sun.tools.javac.tree.JCTree
重点介绍的三个属性
Tree tag:每个语法节点都会以整数的形式表示,下一个节点在上一个节点上加1;
pos:也是一个整数,它存储的是这个语法节点在源代码中的起始位置,一个文件的位置是0,而-1表示不存在
type:它代表的是这个节点是什么java类型,如int,float,还是string等
例子:
package compile;
public class Yufa {
int a;
private int c = a + 1;
//getter
public int getC() {
return c;
}
//setter
public void setC(int c) {
this.c = c;
}
}
说明:
每一个包package下的所有类都会放在一个JCCompilationUnit节点下,在该节点下包含:package语法树(作为pid)、各个类的语法树
每一个从JCClassDecl发出的分支都是一个完整的代码块,上述是四个分支,对应我们代码中的两行属性操作语句和两个方法块代码块,这样其实就完成了语法分析器的作用:将一个个Token单词组成了一句句话(或者说成一句句代码块)
在上述的语法树部分,对于属性操作部分是完整的,但是对于两个方法块,省略了一些语法节点,例如:方法修饰符public、方法返回类型、方法参数。
JavaC语义分析器
流程:
添加默认的无参构造器(在没有指定任何有参构造器的情况下),把引用其他类的方法或者变量,抑或是继承实现来的变量和方法等输入到类自身的符号表中
处理注解
标注:检查语义合法性、进行逻辑判断
检查语法树中的变量类型是否匹配(eg.String s = 1 + 2;//这样"="两端的类型就不匹配)
检查变量、方法或者类的访问是否合法(eg.一个类无法访问另一个类的private方法)
变量在使用前是否已经声明、是否初始化
常量折叠(eg.代码中:String s = "hello" + "world",语义分析后String s = "helloworld")
推导泛型方法的参数类型
数据流分析
变量的确定性赋值(eg.有返回值的方法必须确定有返回值)
final变量只能赋一次值,在编译的时候再赋值的话会报错
所有的检查型异常是否抛出或捕获
所有的语句都要被执行到(return后边的语句就不会被执行到,除了finally块儿)
进一步语义分析
去掉永假代码(eg.if(false))
变量自动转换(eg.int和Integer)自动装箱拆箱
去掉语法糖(eg.foreach转化为for循环,assert转化为if,内部类解析成一个与外部类相关联的外部类)
最后,将经过上述处理的语法树转化为最后的注解语法树
入口是attribute()
实现类是com.sun.tools.javac.comp.Attr类和com.sun.tools.javac.comp.Check类
源码关键:
com.sun.tools.javac.comp.Enter
将java类中的符号输入到符号表中,主要是两个步骤:
将所有类中出现的符号输入到类自身的符号表中,所有类符号、类的参数类型符号(泛型参数类型)、超类符号和继承的接口类型符号等都存储到一个未处理的列表中。
将这个未处理的列表中所有的类都解析到各自的类符号列表中,这个操作是在MemberEnter.complete()中完成(默认构造器也是在这里完成的)。
com.sun.tools.javac.processing.JavacProcessingEnvironment
处理注解
com.sun.tools.javac.comp.Attr
检查语义的合理性并进行逻辑判断,类型是否匹配,是否初始化,泛型是否可推导,字符串常量合并
com.sun.tools.javac.comp.Check
协助attr,变量类型是否正确
com.sun.tools.javac.comp.Resolve
协助attr,变量方法类的访问是否合法,是否是静态变量
com.sun.tools.javac.comp.ConstFold
协助attr,常量折叠
com.sun.tools.javac.comp.Infer
协助attr,推导泛型
com.sun.tools.javac.comp.Flow
数据流分析和替换等价源代码的分析(即上面的进一步语义分析)
字节码生成:
进行了少量的代码添加和转换工作
把生成的信息(语法树、符号表)转化成字节码写到磁盘
“写到磁盘”由com.sun.tools.输出字节码,生成最终Class文件
入口generate()
实现类com.sun.tools.javac.jvm.Gen类