4.1 抽象层次
硬件<微指令<机器码<低级语言<高级语言<解释型语言
4.2 逆向工程
4.3 x86体系结构
冯-诺依曼体系结构
中央处理器(CPU): 负责执行代码。
内存(RAM): 负责存储所有的数据和代码。
输入/输出(I/O): 为硬盘、键盘、显示器等设备提供接口。
控制单元(control unit): 从内存取得要执行的指令。
算术逻辑单元 : 执行内存中取来的指令。
4.3.1 内存
数据:数据节(data section)
代码:代码节(code)
堆:堆是为了程序执行期间需要的动态内存准备的,用于创建(分配)新的值,以及消除不再需要的值。将其称之为动态内存(dynamic memory)
栈:栈用于函数的局部变量和参数,以及控制程序执行流。
4.3.2 指令
指令是汇编程序的构成块。
4.3.3 操作码和字节序
每条指令使用(二进制)操作码告诉CPU程序要执行什么样的操作。
字节序:数据的字节序(endianness)是指在一个大数据项中,最高位(大端,big-endian)还是最低位(小端,little-endian)被排在第一位。
4.3.4 操作数
mov ecx, 0x42
立即数(immediate)操作数是一个固定的值,0x42。
寄存器(register)操作数指向寄存器,ecx。
内存地址(memory address)操作数指向感兴趣的值所在的内存地址,一般由方括号内包含值、寄存器或方程式组成,如[eax]。
4.3.5 寄存器
寄存器是可以被CPU使用的少量数据存储器,访问其中内容的速度会比其他存储器要快。x86处理器中有一组寄存器,可以用于临时存储或者作为工作区。
通用寄存器(EAX(AX,AH,AL)/EBX/ECX/EDX/EBP(BP)/ESP(SP)/ESI(SI)):cpu在执行期间使用,一般使用于存储数据或者内存地址,交替使用以完成程序。
Tips:一些x86指令只能使用特定的寄存器。例如,乘法和除法指令就只能使用EAX和EDX
段寄存器(CS/SS/DS/ES/FS/GS),用于定位内存节。
状态标志(EFLGS),用于作出决定,在执行期间每位要么置位(值位1),要么是清楚(值位0),并且这些值来控制CPU的运算,或者给出某些CPU运算的值。
Tips:常见标志
ZF:当一个运算的结果等于0时,ZF被置位,否则被清除。
CF:当一个运算的结果相对于目标操作数太大或太小时,CF被置位,否则被清除。
SF:当一个运算的结果为负数,SF被置位;若结果为正数,SF被清除。对算术运算,当运算结果的最高位值为1时,SF也会被置位。::
TF:TF用于调试。当它被置位时,x86处理器每次只执行一条指令。
指令指针(EIP)或程序计数器,用于定位要执行的下一条指令,保存了将要执行的下一条指令在内存中的地址。EIP的唯一作用就是告诉处理器下一步做什么。
通用的寄存器的大小都是32位,可以在汇编代码中以32位或16位引用。有4个寄存器(EAX/EBX/ECX/EDX)还可以8位值的方式引用。
4.3.6 简单指令
mov指令(读写内存的指令):mov destination,source
如:mov eax,ebx 表示将EBX中的内容复制至EAX寄存器 / mov eax,[ebx] 表示将EBX寄存器指向的内存地址4个字节复制到EAX寄存器
lea(load effective address)指令:lea destination,source
如:lea eax,[ebx+8] 表示将EBX+8的值给EAX。
算术运算:
add指令(减法):add destination,source
sub指令(减法):sub destination,source。sub指令会修改两个重要的标志:ZF和CF,如结果为零,则ZF置位;如果目标操作数比要减去的值小,则CF被置位。
inc指令:inc dex,将寄存器加一。
dec指令:dec dex,将寄存器减一。
mul指令(乘法):mul value。将EAX乘上value,因此EAX寄存器在乘法指令出现前必需赋值。乘法的结果以64位的形式分开存储在两个寄存器中:EDX和EAX。其中,EDX储存了高的32位,EAX存储低的32位。
div指令(除法):div value。将EDX和EAX的64位结果除以value,因此EDX和EAX在做除法之前这两个寄存器必须赋值。除法的商将存储到EAX,余数则存储在EDX中。
Tips:程序员可以通过模(modulo)的运算等到余数
逻辑运算:OR\AND\XOR指令。xor eax,eax 快速将EAX寄存器置零的方法。
位移运算:移出目标操作数边界的位则会先移动到CF标志中。在移位时,使用0填充新的位。CF标志为重包含了最后移出目标操作数的那一位
shr/shl指令:shr/shl destination,count
循环位移指令:移动位到目标操作数的另外一端
ror/rol指令:ror/rol destination,count
Tips:位移运算被当作乘法运算的优化,不要过于陷入细节。
Nop(无运算 xchg eax,eax)指令:跳过当前指令,执行下一条指令,opcode=0x90。
4.3.7 栈
用于函数的内存、局部变量、流程控制结构等被存储在栈中。栈市一种用压和弹操作来刻画的数据结构,向栈中压入一些东西,然后再把它们弹出来。它是一种后入先出(LIFO)的结构。栈只能用于短期存储。它经常用于保存局部变量、参数和返回地址。其主要的用途是管理函数调用之间的数据交换。
函数调用:函数是程序中的一段代码,执行一个特定的任务,并与其他代码相对独立。
4.3.8 条件指令
所有编程语言都能做比较,并根据比较结果做出决定。条件指令就是用来比较的指令。
test指令(与and指令功能相同):test eax,eax,test指令只设置标志位。test指令执行后我们关注ZF标志位。
cmp指令(与sub指令功能相同):cmp dst,src,cmp指令也是只设置标志位。ZF与CF标志位会发生变化。
4.3.9 分支指令
分支指令是一串指令根据程序流有条件地执行。分支这个词用于描述控制流到了程序地枝干上。最常见地分支指令是跳转指令,jmp无法实现语句等价逻辑。在汇编代码中没有if语句,而是用了条件跳转。
条件跳转语句:
jz loc : 如果ZF=1,跳转到指定位置
jnz loc :如果ZF=0,跳转至制定位置
4.3.10 重复指令
重复指令是一组操作数据缓冲区的指令。数据缓冲区通常是一个字节数组的形式,也可以是单字或者双字。
常见的数据缓冲区操作指令是movsx、cmpsx、stosx、scasx,其中X可以是b、w或者d,分别表示字节、字和双字。
ESI寄存器:源索引寄存器
EDI寄存器:目的索引寄存器
ECX作为计数的变量
rep指令终止条件:rep 循环终止ECX=0/ repe.repz 循环终止条件ECX=0 or ZF=0/ repne,repnz 循环终止条件ECX=0 or ZF = 1
4.3.11 C语言主函数和偏移