x86/x64编程基础

转载

mob604756f1c0ca 2012-11-13 08:54:00

选择编译器

nasm？fasm？yasm？还是masm、gas或其他？

前面三个是免费开源的汇编编译器，总体上来讲都使用Intel的语法。yasm是在nasm的基础上开发的，与nasm同宗。由于使用了相同的语法，因此nasm的代码可以直接用yasm来编译。

yasm虽然更新较慢，但对nasm一些不合理的地方进行了改良。从这个角度来看，yasm比nasm更优秀些，而nasm更新快，能支持更新的指令集。在Windows平台上，fasm是另一个不错的选择，平台支持比较好，可以直接用来开发Windows上的程序，语法也比较独特。在对Windows程序结构的支持上，fasm是3个免费的编译器里做得最好的。

masm是微软发布的汇编编译器，现在已经停止单独发布，被融合在Visual Studio产品中。gas是Linux平台上的免费开源汇编编译器，使用AT&T的汇编语法，使用起来比较麻烦。

由于本书的例子是在祼机上直接运行，因此笔者使用nasm，因为它的语法比较简洁，使用方法简单，更新速度非常快。不过如果要是用nasm来写Windows程序则是比较痛苦的，这方面的文档很少。

从nasm的官网可以下载最新的版本：http://www.nasm.us/pub/nasm/releasebuilds/?C=M，也可以浏览和下载其文档：http://www.nasm.us/docs.php。

机器语言

一条机器指令由相应的二进制数标识，直接能被机器识别。在汇编语言出现之前，使用机器指令编写程序是直接将二进制数输入计算机中。

C语言中的c=a+b在机器语言中应该怎样表达？

这是一个很麻烦的过程，a、b和c都是变量，在机器语言中应该怎样表达？C语言不能直接转换为机器语言，要先由C编译器译出相当的assembly，然后再由assembler生成机器指令，最终再由链接器将这些变量的地址定下来。

我们来看看怎样转化机器指令。首先用相应的汇编语言表达出来。

mov eax, [a] ; 变量 a 的值放到 eax寄存器中

add eax, [b] ;执行 a+b

mov [c], eax ;放到 c中

在x86机器中，如果两个内存操作数要进行加法运算，不能直接相加，其中一方必须是寄存器，至少要将一个操作数放入寄存器中。这一表达已经是最简单形式了，实际上当然不止这么简单，还要配合程序的上下文结构。如果其中一个变量只是临时性的，C编译器可能会选择不放入内存中。那么这些变量是局部变量还是外部变量呢？编译器首先要决定变量的地址。

mov eax, [ebp-4] ;变量 a是局部变量

add eax, [ebp-8] ;执行 a+b，变量b也是局部变量

mov [0x0000001c], eax ;放到 c中，变量c可能是外部变量

变量a和b是在stack上。在大多数的平台下，变量c会放入到.data节，可是在进行链接之前，c的地址可能只是一个偏移量，不是真正的地址，链接器将负责用变量c的真正地址来代替这个偏移值。

上面的汇编语言译成机器语言为

8b 45 fc ;对应于 mov eax, [ebp-4]

03 45 f8 ; 对应于 add eax, [ebp-8]

a3 1c 00 00 00 ; 对应于 mov [0x0000001c], eax

x86机器是CISC（复杂指令集计算）体系，指令的长度是不固定的，比如上述前面两条指令是3字节，最后一条指令是5字节。

x86机器指令长度最短1字节，最长15字节。

最后，假定.data节的基地址是0x00408000，那么变量c的地址就是0x00408000+0x1c = 0x0040801c，经过链接后，最后一条机器指令变成

a3 1c 80 40 00 ; 原始汇编表达形式： mov [c], eax

指令同样采用little-endian存储序列，从低到高依次存放a3 1c 80 40 00字节，其中1c 80 40 00是地址值0x0040801c的little-endian字节序排列。

Hello world

按照惯例，我们先看看“Hello, World”程序的汇编版。

实验2-1：hello world程序

下面的代码相当于C语言main()里的代码。

代码清单2-1（topic02\ex2-1\setup.asm）：

main: ;这是模块代码的入口点。

mov si, caller_message

call puts ;打印信息

mov si, current_eip

mov di, caller_address

current_eip:

call get_hex_string ;转换为 hex

mov si, caller_address

call puts

mov si, 13 ;打印回车

call putc

mov si, 10 ;打印换行

call putc

call say_hello ;打印信息

jmp $

caller_message db 'Now: I am the caller, address is 0x'

caller_address dq 0

hello_message db 13, 10, 'hello,world!', 13,10

db 'This is my first assembly program...', 13, 10, 13, 10, 0

callee_message db "Now: I'm callee - say_hello(), address is 0x"

callee_address dq 0

实际上这段汇编语言相当于下面的几条C语言语句。

int main()

{

printf("Now: I am the caller, address is 0x%x",

get_hex_string(current_eip));

printf("\n");

say_hell0(); /* 调用 say_hello() */

}

相比而言，汇编语言的代码量就大得多了。下面是say_hello()的汇编代码。

代码清单2-2（topic02\ex2-1\setup.asm）：

;-------------------------------------------

; say_hello()

;-------------------------------------------

say_hello:

mov si, hello_message

call puts

mov si, callee_message

call puts

mov si, say_hello

mov di, callee_address

call get_hex_string

mov si, callee_address

call puts

ret

这个 say_hello()也仅相当于以下几条C语句。

void say_hello()

{

printf("hello,world\nThis is my first assembly program...");

printf("Now: I'm callee - say_hello(), address is 0x%x",

get_hex_string(say_hello));

}

代码清单2-1和2-2就组成了我们这个16位实模式下的汇编语言版本的hello world程序，它在VMware上的运行结果如下所示。

当然仅这两段汇编代码还远远不能达到上面的运行结果，这个例子中背后还有 boot.asm和lib16.asm的支持，boot.asm用来启动机器的MBR模块，lib16.asm则是16位实模式下的库（在lib\目录下），提供类似于C库的功能。

main()的代码被加载到内存0x8000中，lib16.asm的代码被加载到 0x8a00中，作为一个共享库的形式存在。这个例子里的全部代码都在topic02\ex2-1\目录下，包括boot.asm源文件和setup.asm源文件，而lib16.asm则在x86\source\lib\目录下。main()所在的模块是 setup.asm。

16位？32位？还是64位？

在机器启动时处理器工作于16位实模式。这个hello world程序工作于16位实模式下，在编写代码时，需要给nasm指示为16位的代码编译，在代码的开头使用bits 16指示字声明。

bits 32指示编译为32位代码，bits 64指示编译为64位代码。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。