
某某大数据中心机房应急预案.doc
8页文档数据中心机房应急预案一、系统故障应急流程1.1 系统故障应急流程说明一、故障发生XX运维服务人员可从以下途径得知故障的发生:1〕中心场人员通过运维平台发现故障2〕外场人员通过维护巡检发现故障3〕用户发现故障,报给应急领导小组,或者XX运维群上报给中心服务工程师4〕驻场工程师发现故障二、报障受理监控系统运维服务人员得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况三、信息研判运维服务人员根据了解到的系统故障情况进展分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案四、预案启动如需启动应急预案,如此立刻通知应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进展全面管控处理五、资源确认系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源〔主要是参与人员〕依据经验进展调度和确认,主要有以下资源:我公司技术支持人员;相关厂家技术支持人员;我公司聘请的技术专家六、预案执行按照既定的预案进展突发故障抢修,如遇到问题与时向应急领导小组汇报七、预案终止预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报应急领导小组决定。
八、结果上报预案中止后,相关预案参与人员将整个事件过程中所有收发信息、领导批示、事故调查报告、现场录像、图片等材料与时整理归档,并总结事件处理过程中的经验和教训,修改、完善事件应急预案然后集中上报至应急领导小组应急流程管理报告填写指南编号:〔格式为D0405-日期+两位序列号,其中日期按“yyyy+mm+dd〞格式,2位序列号根据日期从01起顺序递增,例如D0401,表示2010年3月14日第1应急流程管理报告〕报告日期:年月日至年月日〔统计时间段〕应急流程完成情况统计〔分类统计应急处理次数、完成次数、应急处理分布围等〕应急流程原因与影响统计〔对引起应急流程的原因以与重大事故影响进展分类统计分析〕应急处理时间统计〔对应急处理所需时间进展统计〕资源利用情况统计〔对应急处理所需资源进展统计〕费用统计〔对应急处理所需费用进展统计〕出现的问题和建议〔根据上面的统计数据,对应急流程管理提出出现的问题以与对应急处理工作进展优化的建议〕备注报告人签名:客户经理签名:时间:时间:1.2 系统故障应急处理流程图机房应急预案3.1 通信网络故障应急预案〔1〕如属线路故障,应重新安装线路〔2〕如属交换机网络设备故障,技术人员立即检修并调试通畅。
如交换机配置文件破坏,网络工程师应迅速按照备份配置文件重新配置,调试通畅现场技术支持:XXX 138XXXX5617必要时,请有关供货单位、设备厂商协助调测畅通华为售后:〔3〕如需更换设备,应上报分管领导,经批准后马上更换故障设备,尽快恢复系统运行 〔4〕如发现属于外部线路的问题,应与线路运营商联系,敦促尽快恢复故障线路移动运营商:XXX 137XXXX1717;联通运营商:XXX 156XXXX1216〔5〕现场技术支撑无法与时修理时,应立即通知相关供给商与维护人员,在最短时间安排修理〔6〕特殊情况,如故障判断、网络恢复需要1小时以上,负责人因与时将相关情况汇报至分管领导处,并在领导同意的情况下,采用紧急恢复措施,绕过故障设备,先行恢复网络的联通性,并与时督促与落实设备供给商抵达现场,与时判断故障并恢复正常;〔7〕应急处置完毕后,XX运维团队应将故障分析报告,在调查完毕后一日书面报告应急领导小组3.3 不良信息和网络病毒事件应急预案1、应急处理〔1〕发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心XX运维团队和应急领导小组〔2〕网络管理员30分钟将被攻击的服务器或其他设备从网络中隔离出来,并恢复其他系统正常运行,必要时可以采取照片、截图等方式留存记录,保护现场;〔3〕如事态较为严重,经向分管领导请示后,立即向公安部门报警,配合公安部门展开调查.2、修复处理〔1〕记录系统状况;〔2〕立即复制系统登录文件、历史文件、日志文件等重要文件;〔3〕修改防火墙、交换机等网络安全设备的过滤规如此;〔4〕断开被攻主机、关闭不需要的服务;〔5〕处理可疑的文件和程序;〔6〕修改不安全的系统与其口令;〔7〕恢复被修改的软件和数据;〔8〕安装相应的补丁程序,填补安全漏洞 ;〔9〕编写报告,详述事件过程与处理步骤。
〔10〕事态或后果严重的,应向开发区公安应急领导小组和相关领导汇报〔11〕现场相关技术人员向公司技术部沟通组织技术力量追查非法信息来源;协调各厂家做好被攻击或破坏后系统的恢复与重建工作;3.4 服务器软件系统故障应急预案1、软件故障分类:操作系统故障,应用软件故障2、采取的技术措施在故障发生后立即查看服务器系统状态,如果是系统软件出现故障,并且能进入系统,且故障原因定位清晰,可立即排除如果估计在1小时不能定位原因,如此报告客户经理和应急指挥负责人,同时联系厂商与技术支持协助排除,或根据技术支持建议进展重新安装操作系统和应用系统3、 软件系统平时必须存有备份,与软件系统相对应的数据必须有多日的备份,并将它们保存于安全处;4、 应用软件发生故障后,软件现场负责人应对相应程序进展重启和问题初步排查工作,如无法解决该问题,技术人员应立即向项目负责人或领导汇报,经确认后停止该系统的运行并沟通厂家使用备份程序进展恢复,保证业务正常进展;5、视频巡逻发生较严重故障时可直接联系海康厂家:XXX 189XXXX5330;其余系统发生重大故障时可联系XXX事业部项目经理:XXX 185XXXX60713.5 黑客攻击事件应急预案〔1〕当发现网络被非法入侵、网页容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进展攻击时,使用者或管理者应断开网络,并立即报告XX运维小组。
〔2〕接报告后,XX运维团队应立即核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规如此,封锁或删除被攻破的登陆,阻断可疑用户进入网络的通道〔3〕与时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向开发区公安应急领导小组相关领导汇报,并请求支援〔4〕处置完毕后 ,XX运维团队应将事发经过、处置结果等在调查工作完毕后一日报告应急领导小组3.6 业务数据损坏应急预案〔1〕 发生业务数据损坏 时,XX运维团队应与时报告应急领导小组,检查、备份业务系统当前数据〔2〕XX运维团队负责调用备份服务器备份数据,假如备份数据损坏,如此调用FTP中备份数据〔3〕业务数据损坏事件超过 2小时后,XX运维团队应与时报告应急领导小组,与时通知业务部门以手工方式开展业务〔4〕XX运维团队应待业务数据系统恢复后,检查历史数据和当前数据的差异,由相关系统业务员补录数据;重新备份数据,并写出故障分析报告,在调查工作完毕后一日报告应急领导小组3.7 核心设备硬件故障应急预案〔1〕发生核心设备硬件故障后,XX运维团队应与时报告应急领导小组,并组织查找、确定故障设备与故障原因,进展先期处置〔2〕假如故障设备在短时间无法修复XX运维团队应启动备份设备,保持系统正常运行;将故障设备脱离网络,进展故障排除工作。
〔3〕XX运维团队故障排除后,在网络空闲时期,替换备用设备;假如故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查3.8 机房漏水应急预案〔1〕发生机房漏水时,第一目击者应立即通知XX运维团队,并与时报告监控应急领导小组〔2〕假如空调系统出现渗漏水,XX运维团队负责人应立即安排停用故障空调,去除机房积水,并与时联系设备供给方处理,同时启动备用空调,必要情况下可临时用电扇对服务器进展降温〔3〕假如为墙体或窗户渗漏水,XX运维团队负责人应立即采取有效措施确保机房安全,同时安排通知办公室 ,与时去除积水,维修墙体或窗户,消除 渗漏水隐患〔1〕完善机房环境,确保机房放置灭火器;禁止携带易燃易爆物品进入机房〔2〕机房管理人员应熟悉机房部消防安全操作和规如此,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源〔3〕一旦发生火灾,迅速切断机房电源,防止灾情的扩散,并迅速和园区保安部联系,必要时立即报火警3.10 设备发生被盗或人为损害事件应急预案〔1〕发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告应急领导小组,同时保护好现场〔2〕应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
〔3〕事发单位和当事人应当积极配合公安部门进展调查〔4〕应急领导小组安排XX运维团队、事发单位与时恢复系统正常运行,并对事件进展调查XX运维团队应在调查完毕后一日书面报告应急领导小组并应向公司相关领导汇报四、机房动力系统应急处理方案1、 外电中断后,值班人员应立即检查中心机房UPS电源是否正常供电,并查明中断原因,与时向负责人报告;2、 如因楼线路故障,要求物业管理部门迅速恢复供电;3、 如因供电部门因素导致供电中断,立即向园区物业联系〔:XXXX-XXXXXXX〕,请供电部门迅速恢复供电;4、 如告知需要长时间停电,应作如下安排:〔1〕预计停电1小时以,由UPS供电;〔2〕抢修人员在机房现场实时测试记录备用电池的放电情况,预计停电1小时以上2小时以或者电池放电容量超过40%时,关掉非关键设备,确保各主机、路由器、交换机供电〔3〕预计停电超过2小时,在设备运行1小时候关掉所有机器设备〔4〕电力系统恢复供电后,硬件支持人员按照规定流程开启相关设备并立即对电池进展均充一天发生屡次停电,放电容量在50%以下,均充转浮充后,浮充时间不少于24小时一次停电放电容量在50%~80%时,均充转浮充后,浮充时间不少于48小时。
