
linux内核实现机制概述.docx
13页Linux2.6 内核分析Linux 内核主要由 5 个模块构成 ,分别是:进程调度模块、内存管理模块、虚拟文件系统模块、进程间通信模块Linux 经常使用散列表来实现高速缓存,高速缓存是需要快速访问的信息一、进程进程的模型包括进程控制块(PCB) 、程序部分和数据集合三部分1、进程控制块 PCBPCB 是进程存在的唯一标识PCB 按功能分主要包含以下四部分:进程标示符、处理机状态、进程调度信息、进程控制信息1 )进程标示符:唯一标识一个进程2 )处理机状态:有处理机的各种寄存器中的内容组成,寄存器包括通用寄存器、指令寄存器、程序状态字 PSW、和用户栈指针当初立即被中断时,进程运行信息必须保存在 PCB 中,以便运行时从断点继续执行3 )进程调度信息:存放进程状态、进程优先级、进程调度所需其他信息(如调度算法,进程已运行时间,等待 CPU 时间) 、时间或阻塞原因4 )进程控制信息:包括程序和数据的内存或者外存地址,进程同步和通信机制,资源清单(除 CPU 以外进程所需的全部资源以及已经分配的资源) 、链接指针(下一进程 PCB地址) Linux 的进程控制块 PCB 使用一个成为 task_struct 的结构体来描述。
该结构体中定义了进程的几种状态:(1 ) TASK_RUNNING 状态Linux 的进程运行状态包括实际的运行和就绪状态,对两者的区分是根据当前是否占有 CPU,结构体中 current 变量可以区分两者2 ) TASK_INTERRUPTIBLE 状态即可中断的等待状态,当进程在等待某个事件和某个资源,可中断等待状态的进程可以被信号唤醒而进入就绪状态等待调度3 ) TASK_UNINTERRUPTIBLE 状态即不可中断等待状态,该状态进程由于硬件不能满足,不能被信号唤醒,必须等到得到所等待的资源之后才能被唤醒4 ) TASK_ZOMBIE 状态即僵死状态,终止进程所占有的资源全部释放之后,还保存着 PCB 信息,这种占有 PCB 但已被撤销的进程处于僵死状态(如僵死进程) 5 ) TASK_STOPPED 状态即暂停状态,一般都是有运行状态转换来,正等待某种特殊处理,如调试跟踪的程序6 ) TASK_DEAD 状态新增加的状态,指已经退出但是不需要父进程回收的进程Linux 内核创建一个进程时,首先会新建一个空的 task_struct 结构体,并将相应信息填入结构体中,然后将该结构体的指针添加进 task 数组,这个数组大小由 NR_TASK(默认一般为 512)指定。
调度程序一直维持着一个 current 指针,它指向当前正在运行的程序Task[0]必须指向 init_task 进程( 0 号进程) Linux 中,内核将所有 struct_task 结构体以两种方式组织:(1 )哈希表,将进程的 PID 作为哈希算法的输入,可以用一个给定 PID 快速查找到进程,通过 find_task_pid()来定位相应进程2 )双向循环链表,这样可以使系统很容易遍历所有的进程通过调用for_each_task()来实现遍历task_struct 结构体中的变量 list_head 的作用就是将进程通过双向链表将进程连接起来链表的首部和头部都是 init_task 进程2、进程的创建Linux 提供了三种创建新进程的方法:fork()、vfork()、clone()三者分别对应系统调用的 sys_fork()、sys_vfork()、sys_clone(),最终三者都是通过do_fork()调用完成的目前 Linux 在创建进程时,采用“写时拷贝”技术,即在创建进程时并不将父进程所有的资源都复制给子进程,而是需要时才进行资源的拷贝,可以大大提高 Linux 的性能。
1)fork()函数调用 fork 后,系统会创建一个子进程,子进程和父进程不同的只有它的进程 ID 和父进程 ID,其他都一样地址空间不共享,由于采用“写时拷贝 ”技术,子进程并不完全拷贝父进程的数据段和栈、堆等的复制,这些区域作为父子进程的共享区域,而且内核将他们访问权限设置为只读,如果父子进程任何一个试图修改此区域,内核就为那块内存拷贝制作一个副本之所以采用“写时拷贝”是因为一般 fork 后会调用 exec 调用其他的执行体父子进程的执行顺序不确定fork 函数被调用一次,但是返回两次值两次返回值的区别是,子进程的返回值是0,父进程返回值是子进程的进程 ID调用失败的话返回-12)vfork() 函数该函数与 fork 基本一致,只不过父子进程共享父进程的地址空间对于 vfork 创建新进程后,父进程会阻塞,子进程借用父进程的地址空间运行,直到子进程退出或者调用 exec(exec 函数族的作用是启动另一个程序的执行) ,父进程才可以运行vfork 和 fork 返回值相同3)clone()函数clone 函数和 fork、vfork 不同,它接受一个指向函数的指针和该函数的参数,在创建子进程成功时就调用这个函数执行。
3、进程终止分为自愿终止和被动终止1 )自愿终止a.显式自愿终止:在进程中调用 exit()函数b.隐式自愿终止:进程从某个程序的主函数退出(2 )被动终止a.当进程接收到一个它既不能处理也不能忽略的信号和异常b.进程接收到 SIGABRT 或者其他终止信号上述进程终止主要分为两步来完成:(1 ) 首先通过调用 do_exit()函数释放掉与进程相关的大部分资源,并使进程处于僵死状态,但是进程描述符不释放2 ) 然后对进程的处理应看子进程与父进程谁先终止子进程先终止的话,则子进程一直处于僵死状态,直到父进程调用 wait()或者 waitpid()调用完成后则完全释放父进程先终止,则内核必须为子进程找到新的父进程,方法是首先给子进程在当前组内找一个线程最为父进程,不行就让 init 做父进程wait()函数的两个作用:获取内核发送来的子进程终止消息和清除子进程的所有独享资源wait 函数会首先挂起调用它的进程,知道该进程的一个子进程终止,此时函数会返回该子进程的 PID 给父进程4、线程的实现Linux 内核中没有专门的实现线程的机制,而是通过用户级程序库来实现的,例如pthread 库,以便将所有的线程映射到一个单独的内核级进程中。
Linux 提供的一种不区分进程和线程的方案:通过使用一种类似于 Solaris 轻量级进程的方法,用户级线程被映射到内核级进程上,组成一个用户级进程的多个用户级线程被映射到共享同一个 ID 的多个Linux 内核级进程上这使得这些进程可以共享文件和内存等资源,使得同一组中的进程调度切换时不需要切换上下文5、Linux 进程调度Linux 是一个抢占式多任务系统,高优先级的可以抢占低优先级的 CPU 运行Linux 优先级分为静态优先级和动态优先级Linux 进程分为普通进程和实时进程两类实时进程创建时静态优先级就已经分配而且不会改变,不为实时进程计算动态优先级,实时进程的优先级范围为 0~99 都高于普通进程100~139普通进程优先级同样有静态优先级,但是没有作用,内核为普通进程计算动态优先级,并根据优先级分配时间片,来调度进程Linux 提供了三种调度策略:(1 ) SCHED_NORMAL 面向普通进程的时间片轮转策略时间片用完后再选择一个优先级相对较高的进程进程调度2 ) SCHED_FIFO 面向对响应时间要求比较高、运行所需时间较短的实时进程3 ) SCHED_RR 面向对响应时间要求比较高、运行所需时间较长的实时进程。
总结调度,根据进程的分类调度可分为实时调度和非实时调度1 )实时调度— 针对实时进程静态优先级对于实时进程,静态优先级决定了对 CPU 的抢占,当高优先级的进程到达时,会抢占低优先级进程的 CPU,同样可以知道实时进程总是能抢占普通进程的 CPU对于同一优先级的实时进程则又可采用两种调度算法:FIFO(先来先服务)和 RR(时间片轮转) 例如,当前进程有 A(30 ) ,B(20 ) ,C(20) ,D(5)且 B 早于 C 到达,括号内为进程的静态优先级则采用 FIFO 为: D 优先级最高先执行 B,然后是 B 和 C 优先级相同,由于 B 早到达,所以先执行 B 再 C,最后是优先级最低的 A执行顺序为 D—B—C—A.采用 RR 则仍然是先运行 D,完毕后则交换运行 B 和 C,运行完毕后是 A顺序为 D—B—C—B—C—A2 )非实时调度— 普通进程动态优先级内核为普通进程计算动态优先级,根据此优先级为进程分配不同的时间片(RR) ,此优先级只作为分配时间片的基础,不能够通过动态优先级高低抢占 CPU每次当进程的时间片使用完后都会为其重新计算动态优先级及分配的时间片二、系统调用Linux 的每个系统调用都是通过一些宏、一张系统调用表、一个系统调用入口来完成。
1 )宏Linux 为每个系统调用定义了一个唯一的编号,成为系统调用号通过宏定义方式定义,例如#define __NR_setup 0Linux 中系统调用号一旦分配就不可以再进行更改,否则已经编译好的木块将不能正常使用即使删除的系统调用,也不可以把之前已经分配的系统调用号重新分配,删除的系统调用有相应的空处理2 )系统调用表系统调用表是一个函数指针数组,跳转时以系统调用号作为数组下表,找到相应的函数指针3 )系统调用入口系统调用入口其实是由系统调用入口函数实现功能是将系统调用号放入 eax 寄存器后移用 int $0x80 使处理器转向系统调用入口,查找系统调用表,进而执行内核调用真正的函数Linux 系统调用实际是软中断系统调用过程中,Linux 首先通过执行相应的机器代码指令 int $0x80 产生一个软中断的异常处理信号,使系统自动从用户态切换到内核态三、中断机制Linux 中断主要分为硬中断(IRQ)和软中断两类IRQ 主要分为:短类型 IRQ 和长类型 IRQ短类型 IRQ 需要很短的时间,在此期间机器的其他部分被锁定,而且不能发生其他中断被处理长类型 IRQ 需要较长的时间,期间可能发生其他中断。
当用户程序被来自外部信号中断后,立即保存现场工作,包括保存返回地址和用户寄存器等数据,然后查找中断向量表,找出相应的中断处理程序系统将中断分为三种:捕俘、系统调用和外中断捕俘:通过捕俘处理程序入口表查找到用户编写的处理程序执行系统调用:软中断,通过系统调用表找到操作系统核心提供的服务例程外中断:直接调用核心提供的外中断处理程序运行1、硬中断过程Linux 中,若一个硬件想向 CPU 发送中断信号,必须首先获得一个可用的 “中断请求线” (即中断前必须获得一个可用的 IRQ 号) ,产生一个中断信号后以电信号发送给中断控制器(硬件芯片) ,接着 CPU 根据中断控制器的状态位判定中断的来源,获得中断号,根据中断号查找中断向量表,从表中获得中断处理函数的地址,然后跳转到中断函数入口地址处,执行这个函数2、中断处理程序—硬中断中断处理程序主要做的工作:a. 保护未被硬件保护的一些必须的寄存器b. 识别各个中断源,分析产生中断的原因c. 处理发生的中断事件d. 恢复正常的工作Linux 规定中断处理程序是不可重入的,指的是同一中断线上不可以再发生新的中断,因为所有的处理器都将原中断所在的中断线已经屏蔽。
Linux 中同样规定了同一中断程序不能够并行,这样同一个中断处理程序不可以被同时调用来处理嵌套的中断Linux 中将中断处理程序分为两部分:上半部和下半部上半部主要用来处理那些具有严格时限要求的任务上半部可以看做是一个用来“登记中断”功能的函数,将中断例程的下半部挂到下半部执行队列中上半部要求执行很快,主要是因为上半部完。
