
联想作业管理系统课件.pptx
35页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,0,12 十一月 2024,1,联想作业管理系统,需求分析,系统概述,系统使用,A&Q,高性能计算机的应用领域正迅速扩展,科学计算,产品设计,生物科学探索,.,如何既能方便用户管理作业,又能有效利用机群系统的各种软硬件资源,从而提高系统的资源利用率和吞吐率呢?,需求分析,系统概述,系统使用,A&Q,系统定义,机群作业管理系统是建立在操作系统与用户程序之间的一种系统中间件主要目的,方便用户管理作业,合理选择作业调度策略,统一管理机群系统的各种软硬件资源,提高系统的整体资源利用率和吞吐率主要由用户服务器server、作业调度器sched、结点执行器mom和客户端等四部分组成其中server、sched和mom为守护进程,三者之间协同工作,共同实现作业管理、作业调度和负载平衡等功能原理如下图11所示MOM,sched,Server,单机环境下的机群作业管理系统,内核,调度策略,事件,正在处理的事件,作业,主要包括作业管理、作业调度、资源管理、系统监控、故障恢复、记帐等功能作业管理,作业管理包括提交、查看、修改、删除、挂起/恢复、移动和传送作业等。
作业调度,由调度算法决定,我们目前提供的调度策略有FIFO、RESERVATION和BACKFILL等,用户可以根据需要灵活配置资源管理,管理的对象包括服务器、队列、结点等,管理方法是动态地增加、删除对象,设置、修改对象的属性系统监控,用户通过查看机群系统中各个结点的状态(如空闲、繁忙、作业独占、脱机或故障),决定使用哪些结点来提交作业,实现负载平衡系统功能(三),故障恢复,服务器进程的“故障恢复”选项,可以恢复处于“排队”和“运行”状态的作业,使其继续运行或重新调度,保证用户服务器的高可用记帐,记录每个作业占用所分配结点的时间情况需求分析,系统概述,系统使用,A&Q,基本命令,扩展命令,基本命令,基本命令是原系统本身提供的命令,qsub,qstat,qselect,qhold,qrls,qrerun,qalter,qdel,qmsg,qmove,qsig,扩展命令,扩展命令是对原系统的命令集的扩充,方便在大型机群系统中的安装、配置、启动和停止等系列操作,而专门编写的命令,mpijob_tcp,pvmjob,pvmjob_tcp,bsub,bjobs,bkill,forall,qview,lsload,nodes,check_calnodes,loadd,qsub,提交作业,qsub,-l 指定作业所需要的资源,-o 指定输出文件名,-e 指定错误输出文件名,qstat查看状态,qstat,-q 显示已经配置的所有队列状态信息,-a 显示已经提交的作业状态信息,-f 作业名 显示指定作业的所有状态信息,-B 显示服务器的状态,资源数,队列名,脚本名,查看队列状态,qselect查询作业,qselect,-q 队列名查询指定队列中的作业,主机名查询指定主机上的作业,qhold挂起作业,qhold-h hold_list 作业ID,qrls释放作业,qrls-h hold_list 作业ID,qhold-h hold_list 作业ID,qrerun重新运行作业,qrerun 作业ID,qalter更改批处理作业属性,-a 更改批处理作业的时间属性,-c 更改检查作业一致性的时间间隔属性,qdel删除批处理作业,qdel,-W delay作业ID,qmsg给批处理作业发送消息,qmsg-E-O message_string 作业ID,qmove目标队列 作业ID,qmove在队列之间移动作业,qsig-s signal 作业ID,qsig给批处理作业发送”杀死”信号,基本命令,扩展命令,nodes 无参数,分别用不同的颜色显示全部结点的状态信息(包括free,down,unkown,buzy,offline,job-exclusive等),并统计处于各种状态的结点数目。
nodes 查看所有计算结点的状态,lsload -h 结点机名,lsload查看计算结点的负载和状态,loadd,定期将所在结点的平均负载信息写入以结点名命名的文件中,该文件存放在/usr/local/OpenPBS/loadinfo目录下,如/usr/local/OpenPBS/loadinfo/c*,loadd获得结点的负载信息,mpijob 提交mpi作业使用gm协议,mpijob_tcp 提交mpi作业tcp/ip协议,pvmjob 提交pvm作业使用gm协议,pvmjob_tcp 提交pvm作业使用tcp/ip协议,。
