阅读博客的朋友可以到我的网易云课堂中,通过视频的方式查看代码的调试和执行过程:
在通常情况下,编译器会将目标语言转换成某种中间语言格式,而不是直接将源代码转换成二进制机器指令。不少C语言编译器,都会将代码编译成汇编语言,然后再通过汇编编译器将汇编代码转换成目标机器可执行的二进制代码,这么说来,汇编语言其实也是一种中间语言。
编译成中间语言有很多优势,一是可以优化,先把中间语言进行高度优化后,再将其转换成机器指令,那么程序的速度可以成倍的提高。其二是可以实现跨平台,针对同一种中间语言,不同平台的编译器可以将其转换成与该平台兼容的二进制指令,从而使得一种源程序代码可以运行到不同的硬件平台上。
还有一种好处,就是可以通过虚拟机来运行中间语言,从而突破硬件平台对语言的限制,例如java字节码显然就是一种中间语言,运行到java虚拟机上。我们本章或许会将C语言转义成某种字节码,然后开发一个虚拟机来运行生成的字节码。由此,接下来的重点,我们将聚焦到指令集的格式,以及虚拟机的架构设计上。
中间语言的格式:三元组,四元组,逆向波兰格式
中间语言的指令格式,一般如标题所提及的一样,对大多数汇编语言来说,采取的就是三元组形式,这种格式的指令一般包含三部分:操作符,数据源,结果目标。例如指令:
ADD D0, D1
意思是将D0寄存器的数值与D1相加,并把相加后的结果存放到寄存器D1中。其实C语言也有等价功能的代码表示:
d += s;
上面的语句用数学表示法如下:
(+=, d, s)
三元组指令格式又可以称为两地址指令,因为大多数指令都由源地址,目标地址,以及操作符构成。
四元组一般由四部分组成,两个数据源地址,一个操作符,一个目标地址,例如:
d = s1 + s2;
数学化的表现形式如下:
(+, d, s1, s2)
有时候四元组指令并非都包含四部分,例如赋值语句:
(=, d, s, -)
第四部分的 -, 不是减号,而是横杆,表示这一部分为空。第一部分表示操作,不能为空,所以上面指令的意思是:
d = s;
无论是三元组还是四元组,有时候目标地址无需明确的包含在指令中,例如下面两条三元组指令:
(LESS_THAN, a, b)
(GOTO, target, -)
第一条指令比较两个数的大小,并且将比较结果存放在某个地方,第二条指令的执行将依赖第一条指令的结果,如果第一条指令结果为true, 那么第二条指令将使得程序流跳转到target指定的地址。
有时候,算术运算的指令也不会涉及到目标地址,例如下面两条三元组语句将执行A = B + C:
(+, B, C)
(=, A, .-1)
第一条语句执行完加法运算后,把结果存储到一个内部寄存器叫”加法寄存器”
第二条三元组语句,第三部分的”.”, 表示当前语句所在的地址,那么 “.-1”, 表示的就是上一条语句的地址,因此,第二条语句的作用是把上一条语句的运算结果赋值给A.
三元组相对于四元组有一个优势,就是它与大多数汇编语言的格式很接近。我们本章将代码编译后,所形成的中间语言将采用三元组格式。但四元组也有三元组无法企及的好处,一是简练,例如(+, d, s1, s2), 就需要两条三元组来完成同等功能:
(=, d, s1)
(+=, d, s2)
此外,四元组相比于三元组,更容易进行优化,例如上面的两条三元组语句,在优化时,需要将他们当做一个整体对待,代码挪动时需要两条语句一起挪动,而四元组只要挪动一条语句就可以了。
第三种常用的中间语言格式是逆向波兰格式,PostScript, HP计算器,使用的中间代码就是这种格式。这种格式的语句比较容易解析,同时语句解析时不需要分配临时变量。例如表达式:
( 1 + 2 ) * (3 + 4)
对应的逆向波兰格式为:
1 2 + 3 4 + *
逆向波兰表达式的解析需要一个堆栈, 例如上面语句的解析过程如下:
stack input action
empty 1 2 + 3 4 + * push 1
1 2 + 3 4 + * push 2
1 2 + 3 4 + * 将栈顶两元素出栈相加,
然后将相加的结果压入
堆栈
3 3 4 + * push 3
3 3 4 + * push 4
3 3 4 + * 将栈顶两元素出栈相加然
后将相加的结果压入堆栈
3 7 * 将栈顶两元素出栈相乘,
然后将相加的结果压入堆栈
21 栈顶元素就是计算结果