
II. C语言本质_18 x86汇编程序基础_1 最简单的汇编程序.doc
5页第第 18 章章 x86 汇编程序基础汇编程序基础1. 最简单的汇编程序最简单的汇编程序例例 18.1. 最简单的汇编程序最简单的汇编程序#PURPOSE: Simple program that exits and returns a# status code back to the Linux kernel##INPUT: none##OUTPUT: returns a status code. This can be viewed# by typing## echo $?## after running the program##VARIABLES:# %eax holds the system call number# %ebx holds the return status#.section .data.section .text.globl _start_start:movl $1, %eax# this is the linux kernel command# number (system call) for exiting# a programmovl $4, %ebx# this is the status number we will# return to the operating system.# Change this around and it will# return different things to# echo $?int $0x80# this wakes up the kernel to run# the exit command把这个程序保存成文件 hello.s(汇编程序通常以.s 作为文件名后缀),用汇 编器(Assembler)as 把汇编程序中的助记符翻译成机器指令,生成目标文件 hello.o:$ as hello.s -o hello.o然后用链接器(Linker,或 Link Editor)ld 把目标文件 hello.o 链接成可执行 文件 hello:$ ld hello.o -o hello为什么用汇编器翻译成机器指令了还不行,还要有一个链接的步骤呢?链接主 要有两个作用,一是修改目标文件中的信息,对地址做重定位,在第 5.2 节 “可执行文件”详细解释,二是把多个目标文件合并成一个可执行文件,在第2 节 “main 函数和启动例程”详细解释。
我们这个例子虽然只有一个目标文 件,但也需要经过链接才能成为可执行文件现在执行这个程序,它只做了一件事就是退出,退出状态是 4,第 2 节 “自定 义函数”讲过在 Shell 中可以用特殊变量$?得到上一条命令的退出状态:$ ./hello$ echo $?4所以这段汇编代码相当于在 C 程序的 main 函数中 return 4;为什么会相当呢? 我们在第 2 节 “main 函数和启动例程”详细解释下面逐行分析这个汇编程序首先,#号表示单行注释,类似于 C 语言的//注 释section .data汇编程序中以.开头的名称并不是指令的助记符,不会被翻译成机器指令,而是 给汇编器一些特殊指示,称为汇编指示(Assembler Directive)或伪操作 (Pseudo-operation),由于它不是真正的指令所以加个“伪”字section 指示把代码划分成若干个段(Section),程序被操作系统加载执行时,每个段 被加载到不同的地址,操作系统对不同的页面设置不同的读、写、执行权限 .data 段保存程序的数据,是可读可写的,相当于 C 程序的全局变量本程序 中没有定义数据,所以.data 段是空的。
section .text.text 段保存代码,是只读和可执行的,后面那些指令都属于.text 段globl _start_start 是一个符号(Symbol),符号在汇编程序中代表一个地址,可以用在指 令中,汇编程序经过汇编器的处理之后,所有的符号都被替换成它所代表的地 址值在 C 语言中我们通过变量名访问一个变量,其实就是读写某个地址的内 存单元,我们通过函数名调用一个函数,其实就是跳转到该函数第一条指令所 在的地址,所以变量名和函数名都是符号,本质上是代表内存地址的globl 指示告诉汇编器,_start 这个符号要被链接器用到,所以要在目标文件 的符号表中标记它是一个全局符号(在第 5.1 节 “目标文件”详细解释) _start 就像 C 程序的 main 函数一样特殊,是整个程序的入口,链接器在链接 时会查找目标文件中的_start 符号代表的地址,把它设置为整个程序的入口地 址,所以每个汇编程序都要提供一个_start 符号并且用.globl 声明如果一个 符号没有用.globl 声明,就表示这个符号不会被链接器用到start:这里定义了_start 符号,汇编器在翻译汇编程序时会计算每个数据对象和每条 指令的地址,当看到这样一个符号定义时,就把它后面一条指令的地址作为这 个符号所代表的地址。
而_start 这个符号又比较特殊,它所代表的地址是整个 程序的入口地址,所以下一条指令 movl $1, %eax 就成了程序中第一条被执行 的指令movl $1, %eax这是一条数据传送指令,这条指令要求 CPU 内部产生一个数字 1 并保存到 eax 寄存器中mov 的后缀 l 表示 long,说明是 32 位的传送指令这条指令不要求 CPU 读内存,1 这个数是在 CPU 内部产生的,称为立即数(Immediate)在 汇编程序中,立即数前面要加$,寄存器名前面要加%,以便跟符号名区分开 以后我们会看到 mov 指令还有另外几种形式,但数据传送方向都是一样的,第 一个操作数总是源操作数,第二个操作数总是目标操作数movl $4, %ebx和上一条指令类似,生成一个立即数 4 并保存到 ebx 寄存器中int $0x80前两条指令都是为这条指令做准备的,执行这条指令时发生以下动作:1. int 指令称为软中断指令,可以用这条指令故意产生一个异常, 上一章讲过,异常的处理和中断类似,CPU 从用户模式切换到特 权模式,然后跳转到内核代码中执行异常处理程序2. int 指令中的立即数 0x80 是一个参数,在异常处理程序中要根据 这个参数决定如何处理,在 Linux 内核中 int $0x80 这种异常称 为系统调用(System Call)。
内核提供了很多系统服务供用户程 序使用,但这些系统服务不能像库函数(比如 printf)那样调用, 因为在执行用户程序时 CPU 处于用户模式,不能直接调用内核 函数,所以需要通过系统调用切换 CPU 模式,经由异常处理程 序进入内核,用户程序只能通过寄存器传几个参数,之后就要按 内核设计好的代码路线走,而不能由用户程序随心所欲,想调哪 个内核函数就调哪个内核函数,这样可以保证系统服务被安全地 调用在调用结束之后,CPU 再切换回用户模式,继续执行 int $0x80 的下一条指令,在用户程序看来就像函数调用和返回一样3. eax 和 ebx 的值是传递给系统调用的两个参数eax 的值是系统调 用号,Linux 的各种系统调用都是由 int $0x80 指令引发的,内 核需要通过 eax 判断用户要调哪个系统调用,_exit 的系统调用 号是 1ebx 的值是传给_exit 的参数,表示退出状态大多数系 统调用完成之后会返回用户空间继续执行后面的指令,而_exit 系统调用比较特殊,它会终止掉当前进程,而不是返回用户空间 继续执行x86 汇编的两种语法:汇编的两种语法:intel 语法和语法和 AT&T 语法语法x86 汇编一直存在两种不同的语法,在 intel 的官方文档中使用 intel 语法, Windows 也使用 intel 语法,而 UNIX 平台的汇编器一直使用 AT&T 语法,所以 本书使用 AT&T 语法。
movl %edx,%eax 这条指令如果用 intel 语法来写,就是 mov eax,edx,寄存器名不加%号,源操作数和目标操作数的位置互换,字长也 不是用指令的后缀 l 表示而是用另外的方式表示本书不详细讨论这两种语法 之间的区别,读者可以参考[AssemblyHOWTO]介绍 x86 汇编的书很多,UNIX 平台的书都采用 AT&T 语法,例如[GroudUp], 其它书一般采用 intel 语法,例如[x86Assembly]习题习题1、把本节例子中的 int $0x80 指令去掉,汇编、链接也能通过,但是执行的时 候出现段错误,你能解释其原因吗?。
