C语言函数调用栈(一)

程序的执行过程可以看作连续的函数调用。当一个函数执行完毕时,程序要回到调用指令的下一条指令(紧接call指令)处继续执行。函数调用过程通常使用堆栈实现,每个用户态进程对应一个调用栈结构(call stack)。编译器使用堆栈传递函数参数,保存返回地址,临时保存寄存器原有值(即函数调用的上下文)以备恢复以及储存本地局部变量。

1.寄存器分配

​ 寄存器时处理器加工数据或运行程序的重要载体,用于存放程序执行中用到的数据和指令。因此函数调用栈的实现与处理器寄存器组密切相关。

————————————————————————————————————————————————————————————

​ 对于寄存器%eax,%ebx,%ecx,%edx各自可作为两个独立的16位寄存器使用,而低16位寄存器还可继续分为两个独立的8位寄存器使用。在汇编语言层面,这组通用寄存器以%e(AT&T语法)或直接以e(Intel语法)开头来引用,例如mov $5,%eax或mov eax,5表示将立即数5赋值给寄存器%eax。

1
立即数:通常指在立即寻访方式指令中给出的数,该数值紧跟在操作码之后。

在x86处理器中,**EIP(Instruction Pointer)是指令寄存器,指向处理器下条等待执行的指令地址(代码段内的偏移量),每次执行完相应汇编指令EIP值就会增加;ESP(Stack Pointer)是堆栈指针寄存器,存放执行函数对应栈帧的栈顶地址(也是系统栈的顶部),且始终指向栈顶;EBP(Base Pointer)**是栈帧基址指针寄存器,存放执行函数对应栈帧的栈底地址,用于C运行库访问栈中的局部变量和参数。

[!CAUTION]

EIP是个特殊寄存器,不能像访问通用寄存器那样访问它,即找不到可用来寻址EIP并对其进行读写的操作码(OpCode)。EIP可被jmp,call和ret等指令隐含地改变(事实上它一直都在改变)

[!IMPORTANT]

栈帧指针寄存器(FP)

为了访问函数局部变量,必须能定位每个变量。局部变量相对于堆栈指针ESP的位置在进入函数时就已确定,理论上变量可用ESP加偏移量来引用,但ESP会在函数执行期岁变量的压栈和出栈而变动。尽管某些情况下编译器能跟踪栈中的变量操作以修正偏移量,但要引入可观的管理开销。而且在某些机器上(如Intel处理器),用ESP加偏移量来访问一个变量需要多条指令才能实现。

因此,许多编译器使用帧指针寄存器FP(Frame Pointer)记录栈帧基地址。局部变量和函数参数都可通过帧指针引用,因为它们到FP的距离不会受到压栈和出栈操作的影响。

在Intel CPU中,寄存器BP(EBP)用作帧指针。当堆栈向下(低地址)增长时,以FP地址为基准,函数参数的偏移量时正值,而局部变量的偏移量是负值。

2.寄存器使用约定

​ 根据惯例,寄存器%eax,%edx和%ecx为主调函数保存寄存器(caller-saved registers),当函数调用时,若主调函数希望保存这些寄存器的值,则必须在调用前显式地将其保存在栈中;被调函数可以覆盖这些寄存器,而不会破坏主调函数所需的数据。寄存器%ebx,%esi,%edi为被调函数保存寄存器(callee-saved registers),即被调函数在覆盖这些寄存器的值时,必须先把寄存器原值压入栈中保存起来,并在函数返回前从栈中恢复其原值,因为主调函数可能也在使用这些寄存器。此外,被调函数必须保持寄存器%ebp和%esp,并在函数返回后将其恢复到调用前的值,亦即必须恢复主调函数的栈帧。

3.栈帧结构

​ 函数调用经常时嵌套的,在同一时刻,堆栈中会有多个函数的信息。每个未完成的函数占用一个独立的连续区域,称为栈帧(Stack Frame)。栈帧是堆栈的逻辑片段,当调用函数时逻辑栈帧被压入堆栈,当函数返回时逻辑栈帧被从堆栈中弹出。栈帧存放着函数参数,局部变量以及恢复前一栈帧所需要的数据等。

​ 编译器利用栈帧,使得函数参数和函数中局部变量的分配与释放对程序员透明。编译器将控制权移交函数本身之前,插入特定代码将函数参数压入栈帧中,并分配足够的内存空间用于保存函数中的局部变量。使用栈帧的一个好处是使得递归变为可能,因为对函数的每次递归调用,都要分配给该函数一个新的栈帧,这样就巧妙地隔离当前调用与上次调用。

[!IMPORTANT]

栈帧的边界由栈帧基地址指针EBP和堆栈指针ESP界定(指针存放在相应寄存器中)。EBP指向当前栈帧底部(高地址),在当前栈帧内位置固定;ESP指向当前栈帧顶部(低地址),当程序执行时ESP会随着数据的入栈和出栈而移动。因此函数中对大部分数据的访问都基于EBP进行。

为更具描述性,以下称EBP为帧基指针,ESP为栈顶指针,并在引用汇编代码时分别记为%ebp,%esp。

​ 函数调用栈的典型布局如下图所示

img

[!IMPORTANT]

图中给出主调函数(caller)和被调函数(callee)的栈帧布局,“m(%ebp)”表示以EBP为基地址,偏移量为m字节的内存空间(中的内容)

该图基于两个假设:第一,函数返回值不是结构体或联合体,否则第一个参数将位于”12(%ebp)”处;第二,每个参数都是4字节大小(栈的粒度为4字节)

此外,函数可以没有参数和局部变量,故”Argument(参数)”和”Local Variable(局部变量)”不是函数栈帧结构的必需部分

从图中可以看出,函数调用时入栈顺序为

1
实参N~1 -> 主调函数返回地址 ->主调函数帧基地址EBP ->被调函数局部变量1~N

其中,主调函数将参数按照调用约定依次入栈(图中为从右到左),然后将指令指针EIP入栈以保存主调函数的返回地址(下一条执行指令的地址)。进入被调函数时,被调函数将主调函数的帧基指针EBP入栈,并将主调函数的栈顶指针ESP值赋给被调函数的EBP(作为被调函数的栈底),接着改变ESP值来为函数局部变量预留空间。此时被调函数帧基指针指向被调函数的栈底。以此地址为基准,向上(栈底方向)可获取主调函数的返回地址,参数值,向下(栈顶方向)能获取被调函数的局部变量值,而该地址处又存放着上一层主调函数的帧基指针值。本级调用结束后,将EBP指针值赋给ESP,使ESP再次指向被调函数栈底以释放局部变量;再将已压栈的主调函数帧基指针弹出给EBP,并弹出返回地址到EIP。ESP继续上移越过参数,最后哦回到函数调用前的状态。即恢复原来主调函数的栈帧。如此递归便形成函数调用栈。

[!IMPORTANT]

EBP指针在当前函数运行过程中(未调用其他函数时)保持不变。在函数调用前,ESP指针指向栈顶地址,也是栈底地址。在函数完成现场保护之类的初始化工作后,ESP会始终指向当前函数栈帧的栈顶,此时,若当前函数又调用另一个函数,则会将此时的EBP视为旧EBP压栈,而与新调用函数相关的内容会从当前ESP所指向位置开始压栈。

若需在函数中保存被调函数保存寄存器(如ESI,EDI),则编译器在保存EBP值时进行保存,或延迟保存直到局部变量空间被分配。在栈帧中并未为被调函数保存寄存器的空间指定标准的存储位置。包含寄存器和临时变量的函数调用栈布局可能如下图所示:

img

4.堆栈操作

​ 函数调用时的具体步骤如下:

1)主调函数将被调函数所要求的参数,根据相应的函数和调用约定,保存在运行时栈中。该操作会改变程序的栈指针。

1
注:x86平台将参数压入调用栈中。而x86_64平台具有16个通用64位寄存器,故调用函数时前6个参数通常由寄存器传递,其余参数才通过栈传递。

2)主调函数将控制权移交给被调函数(使用call指令)。函数的返回地址(待执行的下条指令地址)保存在程序栈中(压栈操作隐含在call指令中)。

3)若有必要,被调函数会设置帧基指针,并保存被调函数希望保持不变的寄存器值。

4)被调函数通过修改栈顶指针的值,为自己的局部变量在运行时栈中分配内存空间,并从帧基指针的位置出向低地址方向存放被调函数的局部变量和临时变量。

5)被调函数执行自己任务,此时可能需要访问由主调函数传入的参数。若被调函数返回一个值,这个值通常保存在一个指定寄存器中(如EAX)。

6)一旦被调函数完成操作,为该函数局部变量分配的栈空间将被释放。这通常是步骤4的逆向执行。

7)恢复步骤3中保存的寄存器值,包含主调函数的帧基指针寄存器。

8)被调函数将控制权交还主调函数(使用ret指令)。根据使用的函数调用约定该操作也可能从程序栈上清楚先前传入的参数。

9)主调函数再次获得控制权后,可能需要将先前的参数从栈上清除。这种情况下,对栈的修改需要将帧基指针值恢复到步骤1之前的值。

[!CAUTION]

以下介绍函数调用过程中的主要指令:

压栈(PUSH):栈顶指针ESP减小4字节;以字节为单位将寄存器数据(四字节,不足补零)压入堆栈,从高到低按字节依次将数据存入ESP-1,ESP-2,ESP-3,ESP-4指向的地址单元。

出栈(POP):栈顶指针ESP指向的栈中数据被取回到寄存器;栈顶指针ESP增加4字节。

img

可见,压栈操作将寄存器内容存入占内存中(寄存器原内容不变),栈顶地址减小;出栈操作从栈内存中取回寄存器内容(栈内已存数据不会自动清零),栈顶地址增大。栈顶指针ESP总是指向栈中下一个可用数据。

调用(leave):恢复主调函数的栈帧以准备返回。等价于指令序列movl %ebp,%esp(恢复原ESP值,指向被调函数栈帧开始处)和popl %ebp(恢复原EBP的值,即主调函数帧基指针)

返回(ret):于call指令配合,用于从函数或过程返回。从栈顶弹出返回地址(之前call指令保存的下调指令地址)到EIP寄存器中,程序转到该地址处继续执行(此时ESP指向进入函数时的第一个参数)。若带立即数,ESP再加立即数(丢弃一些在执行call前入栈的参数)。使用该指令前,应使当前栈顶指针所指向位置的内容正好时先前call指令保存的返回地址。