汇编调试的意义

了解常用的汇编指令和知识,可以知道经过编译器优化后,最终的代码调用,有可能和源码并不相同,如:设置faster,smallest 代码会更短,最终的汇编执行指令与源码不一样。

可以研究代码在二进制层面的执行流程是否和源码的流程一致,从二进制层面研究方法调用的传参,内部调用,方法返回值。

如下:

汇编调用BIOS中断 汇编调试_汇编调用BIOS中断

可以从汇编指令看出,init方法里只是把参数寄存器中的值移动到返回寄存器中就结束了,说明方法内部是直接返回,没有其他逻辑处理。

 

开启Xcode汇编调试

选中Always Show Disassembly项。

XCode -> Debug -> Debug Workflow -> Always Show Disassembly

 

汇编调用BIOS中断 汇编调试_内存地址_02

在计算机中,虽然数据是存储在内存中,但内存中数据的加减计算并不是在内存中直接进行的。

而是把内存中的数据赋值到寄存器中,然后CPU在寄存器中计算好后把结果再赋值到内存中的。

汇编调用BIOS中断 汇编调试_寄存器_03

对内存中3做加1计算,并把几个4存储到蓝色内存块中

movq 红色存储空间, %rax addq $0x1, $rax movq %rax, 蓝色地址空间

汇编语言和机器语言是一一对应的。

汇编语言通过汇编器可以变成机器语言,机器语言通过反汇编又可以转成汇编语言。

高级语言通过编译器可以变成汇编语言,汇编语言无法通过反编译转成高级语言了。

 

汇编语言种类

8086汇编(16bit)

x86汇编(32bit)

x64汇编(64bit)

ARM汇编(嵌入式,移动设备)

对应iOS开发来说,iOS模拟器使用的AT&T汇编,iOS真机使用的ARM汇编。

 

OC和Swift调试的汇编指令是AT&T

它的数据移动操作顺序是从左往右,比如movq指令是将左边寄存器的值移动到右边的寄存器中。

数据的移动:

movq -0x18(%rbp) , %rax //表示将%rbp-0x18 这个内存地址中保存的值移到 %rax寄存器中

地址的移动:

leaq -0x18(%rbp) , %rax //表示将%rbp-0x18 这个地址移到 %rax寄存器中

call 内存地址 // 方法调用

jmp 内存地址 // if 跳转

addq $0x1, $rax // 赋值,把左边的值设置到右边的寄存器中

汇编调用BIOS中断 汇编调试_内存地址_04

 

mov 与 movq相比多了一个q, 这个q是什么意思呢?

q代表保存数据要用多少个字节,q:64-bits, 8字节。

指令在内存中是顺序保存的,基本上每条指令占4字节。

 

call和jmp指令相似

call是方法调用,jmp是if判断。

call是和ret配合使用的 call 0x00是跳到这个函数地址,等函数执行完,走到ret后会回到call指令的下一句的。

jmp是顺序执行,jmp 0x00后一直顺序往下执行。

call和jmp跳一个动态的函数地址时,命令是call *的,如:call *%rax。

汇编调用BIOS中断 汇编调试_汇编调用BIOS中断_05

从寄存器的发展来看是由小到大,比如从x86的32字节,到x64的64字节,它们是怎么兼容的呢?

解决方法是共用一个64位寄存器的内存,按照所占内存大小,从低位往高位占据。比如32位寄存器只使用64位全部空间的一半,占据寄存器的低地址区。

%rip, %rdx, 以r开头的是64位8字节寄存器

%esi, %idx, 以e开头的是32位4字节寄存器

其他的

ax ,bx, cx 占2字节

ah, al 占1字节

 

lldb汇编调试指令

内存/寄存器读写

读取寄存器中的值

register read/格式
register read/x
register write 寄存器名称 数值
register write rax 0
x/数值-格式-字节大小 内存地址
x/3xw 0x000010
x/3xw 0x000010的具体解释如下:
x:表示执行读取内存的命令。
/3:表示输出三个数据,即连续的三个内存地址。
x:表示以十六进制的形式输出数据。
w:表示输出的数据类型是一个 word,即 32 位长度的数据类型。
最后的参数 0x000010 则是要读取的内存地址,可以根据实际情况进行替换。在执行这个命令之后,LLDB 会输出指定内存地址中的三个 32 位数据值,以十六进制格式显示。

修改内存中的值

memory write 内存地址 数值
memory write 0x000010 10
thread step-inst-over, nexti, ni //单步运行,把子函数当做一个整体,一步执行
thread step-inst, stepi, si //单步运行,遇到子函数进入子函数

内存地址计算

当汇编调用,程序走到断点的位置时,要验证movq $0xa, 0x459d(%rip)这块汇编执行的效果时

会手动计算内存地址 = %rip + 0x459d

注意,此时从寄存器%rip拿到的值是错的,因为CPU的指令寄存器是保存的下一条指令要执行的地址

而当前断点断住了,相当于在CPU准备执行这个命令时会有一次执行下调指令的计算没有做,如果直接读取,那么读到的是还是CPU上一次的更新执行当前指令地址的值,正确的执行上下文时,应该是下一条指令的地址值。

汇编调用BIOS中断 汇编调试_寄存器_06

%rip: 指令寄存器

iOS传参优先使用寄存器传参,寄存器不够了用栈传参。

内存地址格式规律

0x4bdc(%rip),一般是全局变量,全局区(数据段)
-0x78(%rbp), 一般是局部变量,栈空间
0x10(%rax), 一般是堆空间

常用寄存器

rax, rbx, rcx, rdx, rdi, rsi, rbp, rsp
r8,r9,r10,r11,r12,r13,r14,r15

rcx, rdx, rdi, rsi, r8, r9常用于存放函数参数。

rbp, rsp用于栈操作

rip作为指令指针(存放的是下一条执行指令的地址, 一旦CPU读取一条指令,rip自动指向下一条指令)

 

使用lldb工具进行汇编分析

通过使用调试指令,打印对象的内存地址分布,结合字节对齐,可以看到一个对象的总内存中,不同属性在内存中的保存样式。

可以查看参数寄存器,返回值寄存器的值是否符合逻辑,通常第一个寄存器用于保存函数结束时的返回值。

 

内存地址的存储采用大端模式,是指数据的高字节保存在内存的低地址中,而数据的低字节保存在内存的高地址中,这样的存储模式有点儿类似于把数据当作字符串顺序处理:

地址由小向大增加,数据从高位往低位放;这和我们的阅读习惯一致。

汇编调用BIOS中断 汇编调试_数据_07

 

验证里面是否是有效的对象指针时,可以p打印这个指针,如果是一个有效的指针会打印这个指针的类型,如果不是则是一堆数据。

p/print 打印
po/expr 打印对象,执行命令
x 打印内存地址
#根据对象的8字节对齐和数据存储的大端模式,可以还原出内存中保存的指针地址。
p (NSString *)0x0104294080

汇编调试打断点

在源码要关注的方法前打断点,然后再打符号断点,即可进入到对应汇编方法的断点了。

然后使用xcode tab上的单步,进入按钮进行调试。

 

通过源码分析验证底层实现

通过断点liballoc和objc库,可以找到苹果提供的api的底层实现原理,从而验证汇编执行流程,内存的分配原则。

alloc创建对象的流程

根据类中成员变量占据的总内存大小去系统分配内存。去申请内存前要进行内存对齐,比如:对象内存长度才有8字节的倍数,如果实际只需要4个字节,系统还是会分配8个字节,这样提升代码执行效率。

系统字节对齐

系统分配大小是16字节对齐,如果对象内存小于16字节,就等于16。

对象在内存中实际占用的大小是按8字节对齐,实际需要不足8字节的,也按最小8字节分配。

 

通过汇编分析回答问题

 

runtime是什么?

从看objc源码可以发现,它是使用C ,C++,汇编实现的一套API。为OC提供运行时的功能,

是向系统申请内存,管理内存,处理垃圾回收的集合。objc_sendmsg用汇编统一实现函数的调用。

平时对runtime的使用。

 

打印的obj,obj1,obj2有什么区别?

答案:都一样

int main(int argc, const char * argv[]) {
    id obj = [NSObject alloc];
    id obj1 = [obj init];
    id obj2 = [obj init];
    NSLog(@"%p - %p - %p",obj,obj1,obj2);
    return 0;
}

2023-03-23 21:50:08.818412+0800 SimpleDemo[84990:4014556] 0x101345550 - 0x101345550 - 0x101345550

在objc项目中NSObject.mm中,init方法的实现如下:

- (id)init {
    return _objc_rootInit(self);
}

id
_objc_rootInit(id obj)
{
    // In practice, it will be hard to rely on this function.
    // Many classes do not properly chain -init calls.
    return obj;
}