
某信息中心机房运维管理办法.docx
33页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第1页 共1页附件1:*****信息中心机房运维管理办法第一章 总 则第一条 本管理办法以信息中心提高信息机房运维工作质量,加强日常管理工作为目的,保证机房的各类设施设备时刻处于良好的运行环境、设备安全稳定运行,确保“响应及时、保障一线”为原则,明确运维中心工作人员的职责分工和日常管理、告警及应急管理等内容第二条 为完善信息中心机房工作管理办法,依据*****信息系统运行管理相关规定和《信息中心信息系统运行管理办法》,结合信息中心机房实际情况,特制定本办法第三条 本办法适用于信息中心机房的日常管理及故障处理等工作第二章 职责分工第四条 运维中心是信息系统基础平台的运行维护部门,运维中心的机房运维工作人员为各信息机房提供7*24小时的现场保障主要负责信息机房的日常值班、门禁权限的管理、机房设备管理、设备告警及各类故障的应急处理第三章 管理办法内容第一节 权限管理第五条 为加强信息机房的安全管理,提高安全管理水平,各信息机房大门、监控室、机房主要出入口、缓冲区、机房配电室、等出入口设置了门禁管理系统门禁系统将按照“分区管理、授权进出、规范管理”的原则进行管理。
一) 门禁授权管理分级1、一般授权:为8小时工作时间有效的门禁授权,工作时间以外及周六日无效适用于普通工作人员使用2、特殊授权:为24小时工作时间有效的门禁授权,节假日有效适用于24小时现场职守人员及其他特殊需求工作人员使用相关工作人员因工作需要或其他原因需开通机房门禁授权的,首先要详细填写《信息中心机房门禁授权申请单》(见附件3)中的每一项内容,经相关领导允许并确认签字后,将《信息中心机房门禁授权申请单》原件返回给机房值班人员,由机房运维人员根据申请单情况,进行开通指纹授权确认二) 门禁授权审批流程:1、提交的申请表中需要明确填写申请原因,授权时间及授权范围等内容,申请表需申请人签字,经运维中心领导审批2、门禁授权办理通过审批的申请单,将由机房运维组为员工办理门禁授权系统员工在因长时间外出或离开本工作岗位时,需及时将其门禁授权予以清除或办理授权失效日常管理及具体操作授权由机房值班人员负责已开通的门禁的申请单由机房运维组归档、管理、保存三) 未经门禁授权登记进出的 1、未经授权或经运维中心领导同意,工作人员不得私自带不相干的人员进入设有门禁的工作场所及机房2、对于需要进入办公区域及机房内进行操作,办公的人员需经相关负责人同意并有指定的监护人进行陪同监护工作,方可进入,进入人员应按规定填写好《机房出入登记表》(见附件4)。
第二节 机房设备管理第六条 加强机房的安全管理,杜绝人为因素对机房造成影响,为设备提供安全的运行环境,保证机房内设备处于最佳运行状态1、 机房内设备必须按照相关规定放置,并有明确设备标识未经运维中心相关负责人批准,任何部门及人员不可以放置任何设备于机房内;2、 设备的维护必须由专人负责,他人不可随意操作;设备需要停机检查时,须经运维中心相关负责人批准后,方可进行;3、机房维护终端不可安装各种与设备维护无关的应用程序,不可使用外来磁盘进行数据拷贝维护终端应该有明确的防病毒措施,定期进行检查4、机房内各种工具、仪表、小车等未经允许不准擅自带出机房,使用时需要填写《设备借用登记表》(见附件5),使用后归还原处第三节 问题管理及缺陷管理第七条 问题管理、缺陷管理的目的是消除或减少机房运维工作中机房各设备发生故障事件的数量和严重程度,防止相同事件的再次发生,从建立一个稳定的运行环境,提高信息系统服务的可靠性 (一) 问题管理包括主动性问题管理和被动问题管理两类活动前者的目标是通过找出基础设施中的薄弱环节来阻止事件再次发生,以及提出消除这些薄弱环节的建议;后者的目标是找出导致以前发生事件的根本原因,以及提出解决措施或纠正建议。
二) 问题管理、缺陷管理着重于消除事件或减少事件发生,确定事件的根本原因主要活动包括分析事件、找出问题、确定根本原因以及找出解决方案,以消除事件或在其发生时降低对机房环境和信息系统的影响三) 问题管理依赖于有效的事件记录,事件记录应记录所发生的事件,并对事件进行详细的描述信息中心机房运维的事件记录有《机房巡检表》(见附件6)、《交接班日志》(见附件7)、《机房运维日汇报》(见附件8)一) 机房运维负责人担当问题管理负责人,负责在问题和已知错误的整个生命周期内对其发展情况进行监控,确定并监控其影响度;监控问题和已知错误的分析诊断情况和方案实施情况二) 一旦找到问题的根源和与此问题相关的事项,以及处理它的应急措施并确定对问题最合适的解决方案进行修复解决第八条 缺陷管理(一) 机房运维人员对设备进行固定巡检、巡检时应注意检查设备状况,对于发现的缺陷,若可以随手消除的应即随手消除,事后在班组进行相应的记录;属不能随手消除缺陷的,应及时登录缺陷并汇报负责人 (二) 通过巡检、操作和信息中心机房运维的事件记录,进行分析发现并记录设备缺陷,提出消缺要求,采取措施,为消缺工作顺利进行创造条件三) 对发现的重大缺陷,及时通知设备维修人员到现场进行消缺,部分必须在设备停用后才能消除的缺陷或没有消缺所必须的备品备件的缺陷时需要进一步观察、分析才能确认的缺陷,且暂时不会对设备、系统或人身安全构成立即的危害,也不会给业务运行带来严重损失的设备缺陷。
四) 在设备缺陷未消除前组织运行值班人员加强检查监视,采取措施防止缺陷造成的影响扩大第四节 安全管理第九条 安全管理规定1. 工作人员,没有操作票及监护人禁止进入信息机房进行任何操作,进入机房需填写“操作工作票”,征得相关负责人同意并签字,指定监护人后方可进入机房操作2. 操作票当日签署当日有效,隔日需另签操作票操作票需填写清楚施工单位人员及联系方式,工作任务主要内容,工作时间,批准人及监护人签字3. 机房内禁止吸烟,严禁存放和使用易燃易爆、剧毒及腐蚀性物品4. 运维人员应切实遵守安全制度,认真执行用电、防火的规定,做好防水、防火、防爆、防盗、防雷、防冻、防潮等工作,确保人身和设备的安全5. 机房运维人员应加强防火安全学习,定期进行安全防火检查一旦发生火情,应按制定的灭火流程进行处理,并立即报告6. 机房必须配备一定数量的合适消防器材和防护用具各种消防器材和防护用具应按规定定点放置,随时保持有效,过期的灭火装置及时更换机房值班人员和维护人员应掌握灭火常识和消防器材的使用7. 机房应有可靠避雷装置, 雷雨季节应加强对机房内部安全设备、地线及防护电路的检修和整改8. 在维护、测试、磁带更换、光盘更换、故障处理、日常操作以及工程施工等工作中, 应采取预防措施, 防止造成工伤和事故。
10、各种测试仪表和电器设备的外壳,要接地良好,插拨电路盘应使用抗静电手环高压操作时应使用绝缘防护工具,注意人身和设备安全不同种类的电源应使用不同的插座11、各机房应在显眼处张贴消防逃生示意图和机房灭火流程12、机房用电须经相关负责人批准, 指定用电接点后, 方可接电第五节 值班管理及日常管理第十条 为保证机房设备的正常运行,维护日常工作秩序,特制定机房值班管理和日常管理办法:1. 值班时间为:周一至周日全天值班2. 值班范围包括公司本部各信息机房内的监控区、设备区、UPS区、电池区;确保每个区域环境正常和设备的稳定运行3. 值班人员必须认真履行职责,加强责任感,保持警惕4. 值班人员须按时到岗离岗,不得迟到早退空岗有事须事先请假,以便安排临时替代人员,不准私自让他人代班、调班5. 值班前及在岗期间不得饮酒,不得使用中心设备处理与工作无关事务和个人事务,不得将无关人员带入岗位6. 值班人员必须定时按巡视内容要求对机房各区域进行全面巡查,并填写相应巡检记录表及交接班登记表7. 值班人员在值班期间遇到有人访问机房时,须要求对方出具操作票,并有监护人进行全程陪同监护当遇监护人不在现场时,值班人员有权利和义务终止访问人进行机房内的任何操作。
8. 值班期间一旦发生突发事件,值班人员必须迅速分析原因并按操作程序采取有效措施予以处置,不得以任何理由推诿、拖延障碍处理时间,必要时根据应急预案联系设备厂商,重大问题要及时向机房负责人报告,并详细做好记录9. 值班人员必须熟悉掌握所有设备的工作原理,操作程序,熟悉应急预案、应急程序及应急措施10. 值班人员未经主管人员批准,不得擅自更改网络和主机设备等配置参数机房内的设备、配件、软件、资料等任何物品不允许私自带出机房第六节 告警管理及应急管理第十一条 告警级别设定 根据机房设备的重要性,及影响信息系统运行的严重性,现将机房告警分为以下三个级别:1. 主要告警:包括通风设备组(新风机、排风机的报警为主);2. 严重告警:包括空调及环境监控设备组(精密空调、机房专用柜机空调、温湿度、漏水监测、防雷器);3. 紧急告警:包括消防、供配电、UPS设备组(消防系统控制箱、UPS、蓄电池、配电开关状态、动力配电柜、ATS状态)第十二条 告警及应急管理1. 值班人员必须按照规定定时巡检,巡检项目包括:机房空间各处安全隐患,各设备有无异常气味、声音,各设备供电状况,各设备指示灯,强电箱供电状况,UPS运行状况,空调运行状况,设备间温湿度状况,消防控制器状况,视频监控状况,机房前后门状况等等。
2. 机房各处安全隐患包括空间内有无异味、火花等异常状况有异味时应尽可能找出根源,及时处理根据源头材质用正确的方法消灭隐患3. 各设备供电情况和指示灯状况包括查看各类设备是否正在运行,有无供电报警状况,供电不正常时,检查相应供电源头状况,机柜PDU、航空插头等,并根据《*****机房电源、空调等物理设备故障现场处置预案》(见附件2)启动相应的应急预案4. UPS运行状况主要查看监控器上输入输出电压电流及其负载,强电输入是否异常报警,电池模块指示灯是否正常若出现强电输入异常报警情况,立即查看电源输入强电箱是否异常,并根据《*****机房电源、空调等物理设备故障现场处置预案》(见附件2)启动相应的应急预案5. 检查精密空调运行状态,包括温度、湿度、故障报警等若出现温度过高,空调故障报警时,应根据《*****机房电源、空调等物理设备故障现场处置预案》(见附件2)启动相应的应急预案6. 消防控制器状况包括面板各项指示灯是否正常,是否因为不同问题报警,并采取必要措施若出现烟感或温感误报的情况,排查确认无隐患后取消报警,并在交接班时说明情况,以便及时修理若同时报警,在最短时间确认是否为火灾后,采取相应措施,应根据《*****机房电源、空调等物理设备故障现场处置预案》(见附件2)启动相应的应急预案。
第七节 文档管理第一条 建立信息机房基础设施清单这部分内容包括机房内设备的名称、型号、数量、投运时间、放置地点等有关记录第二条 建立系统登记册 内容包括机房运行配套的软件系统,如门禁系统、环境监测系统、视频监控系统、巡更系统,等系统的版本号、主要功能等有关记录第三条 故障情况记录根据机房巡检时所发现的故障情况,以及处理过程、处理结果,详细的记录在巡检表、交接班及日汇报表中并将相关的表单存放于固定的文件柜中进行保存,做到有据可依,有据可查第八节 培训及考核管理第一条 培训管理1、 进行培训需求调查;2、 提出培训需求;3、 对培训需求进行分析;4、 确定培训需求;5、 制定培训计划;6、 报告领导审批;7、 培训计。
