
计算机中心机房运行风险分析及应对.docx
4页为了满足业务或管理的需要,保障计算机核心系统和网络系统的正常运行环境,越来越多 的计算机中心机房(以下简称机房)投入使用机房以及各种各样的机房保障系统的安全 运行水平,决定了核心业务系统和网络系统的可靠性和可用性计算机应用系统和网络系 统越重要,对机房的保障要求就越高,确保机房的安全可靠运行,是每个机房管理者追求 的目标然而,各种各样的计算机系统,庞大的信息通讯网络,众多的机房保障系统,连 续不间断的长期运转,注定了机房运行风险的客观存在一、机房运行风险分析1、机房的运行风险机房中连续运行着各种各样的设备和系统,对设备(系统)的可用性是人们关注的重点 假设一台设备(系统)的可用性达到99.9%,那么它一年中就可能有8.76小时不能用, 即使设备(系统)的可用性达到99.99%,其一年仍然可能有0.876小时不能用一个机 房内成百上千台套的运行设备(系统),可以说时刻都孕育着运行失效的风险,因此防范 运行风险必须引起足够的重视风险防范须建立在对风险的清楚认知的基础之上比较简单的方法是通过风险列表,按照 分类等级尽可能详尽地罗列出相关机房可能存在的各种运行风险,用以进一步的分析一 般可以按照机房环境、运行设备、机房管理等方面进行机房风险分类,然后尽可能详尽地 列出相应的风险事件和因素,并进行分级。
以下是一个机房风险列表示例(见下表)其中,一级风险为无法承受的运行风险,因为 一旦发生,无法在短时间内恢复正常的运行状态,必然会给所属单位造成严重的经济、社 会损失二、三级风险虽然严重危及运行安全,但是大部分可能造成局部运行异常或只是 运行安全隐患,基本属于可承受和可控制的运行风险当然不同类型用途的机房,其风险 等级的认定会不同值得注意得是,机房运行风险不是一成不变的,会随着机房内相关要素的各种变化而改变, 或者影响其风险等级,或者会产生新的风险因素机房运行风险分析列表风险分类风险等级一级二级三级机房安全机房发生火灾机房部分设备发生火险机房大面积漏水主要机房地面积水机房局部漏水机房建筑物发生塌毁机房建筑物局部损毁机房建筑物险情消防系统失控消防系统异常空调系统失效或失控温度或湿度超范围门禁系统失控门禁系统异常机房照明失效照明异常场地监控系统失效场地监控系统异常运行安全核心设备故障停机主要设备故障停机个别设备故障停机机房大面积停电供电异常接地异常系统异常或程序混乱系统异常程序错误运行数据丢失无法恢复数据丢失但可以恢复数据错误可以恢复核心网络中断备份无效主/备网络故障部分网络故障管理及人员安 全人为破坏事故严重操作失误一般操作失误管理机构或责任缺失规章制度不健全管理松懈人员伤亡人员受伤财产安全重要设备损毁局部设备损毁设备故障重要设备(数据)丢失设备丢失设备配件丢失其他雷击导致供电或网络通讯中断发生雷击入侵防雷设施失效鼠害毁坏线缆发现老鼠发生虫害发生严重电磁干扰发生一般电磁干扰2、机房运行风险分析机房风险的来源是多方面的。
首先,机房风险的存在是客观的任何长期运行的机房,不可避免会发生各种各样的异常, 从而导致运行风险,如设备故障、网络通讯异常、计算机系统失效等从运行安全的容忍 程度,可以分为可承受风险和不可承受风险;从风险发生的角度,可分为可控制风险及不 可控风险机房管理的目标是最大限度地避免发生无法承受的不可控制的运行风险,及时 排除可承受风险发生的隐患,避免可控制风险的发生其次,机房风险来源于机房设计、施工缺陷机房的设计、施工及验收,国家都有相关的 标准,但是由于经费投入、设计施工单位资质、机房管理部门要求等因素,使得有些机房 在开始设计建设时就在使用功能、安全标准、配套设施、材料用品等方面存在很多缺陷, 特别是在机房的安全性、可维性、可扩展性方面留下严重隐患第三,机房风险来源于低水平的管理由于机房用途的特殊性,决定了其管理的重要性 由于目前没有标准的机房管理规范,各行各业各家的机房管理都是自行其是,问题是相当 多的机房运行风险正是由管理不到位造成的如规章制度不健全或形同虚设、安全管理不 到位、检测检查制度不严格、技术维护制度不落实等等第四,机房风险来源于不严谨的运维机房运行维护是维持长期可靠运行的必要手段,高 度的责任心、精通的运维技术和严谨的工作态度,对实现安全运维目标缺一不可。
往往一 时的疏忽,一个随意的操作,一次不到位的检查,一次不经意的失误等等,就会导致一场 运行风险甚至灾难二、防范机房运行风险的对策机房管理者应该在机房运行风险没有发生时就制定好严密的应对对策为此,针对机房风 险的对策主要应该体现在以下一些方面1、真实可行的风险分析应用科学的方法,针对确定的对象,进行认真仔细的风险分析 同时进行合理的风险判断 尽管机房运行风险的基本情况如前表的罗列,但是具体的机房必须进行具体的风险分析, 才可以制定出切合实际的防范对策其方法可以参照本文的列表进行分类分级,在此基础 上,进行风险承受性和风险控制性分析下面以对某机房的消防保障情况分析,说明机房火灾风险分析的方法1) 火险火源:电源(老化、过载、短路、电弧等)人为(用火失误、放火破坏等)2) 控制能力:首先,机房所有建筑材料,全部为不可燃物品或难燃物品,即使发生火险, 其燃烧蔓延速度和范围有限其次,电源设施全部按照国家标准施工建设和验收,其中开 关、线缆等配件均为合格产品;机房线缆全部实现金属穿管布线第三,机房安排24小时 双人同时值班,严格执行定期检查检测制度,认真落实供配电系统定期检测制度,所有供 电回路没有满载使用情况。
第四,机房安装了合格的自动检测消防系统,包括自动温感和 烟感报警及自动扑灭装置,机房内合理布置了适量的手提灭火器第五,机房内严禁用火, 工作人员严禁在机房内吸烟第五,机房有健全的门径控制系统和严格的人员进出管理制 度,工作人员的业务素质较高,职业操守良好3) 风险承受力:局部火险的影响可以承受,一旦发生火灾就将会导致非常严重的后果和不 可控制的影响4) 结论:可控性高,发生率低,风险较小2、风险预置理念通过对机房运行风险的分析,就会发现,机房风险可以进行适当的分别对待,因此提出机 房运行风险预先处置的理念即通过科学的防范措施,尽可能避免一级风险的发生,尽可 能减少二、三级风险的发生1) 风险转移将一些可以预见但可能发生概率较低的风险,通过购买保险、设备维修外包 等形式,转移到保险公司和机房设备服务商如购买财产保险,将机房风险(机房建筑物 风险、火灾风险等)转移到保险公司;通过机房设备外包的方式,将UPS、精密空调等设 备故障风险转移到设备维修服务公司等特别是对重要的设备以外包方式实现风险转移, 是非常理智的选择同时强调,选择风险转移的主要目的在于通过借助相关部门的管理、 技术、资金来最大限度地降低机房发生相关风险的可能性。
2) 科学监控事实上,机房保障系统的运行故障,大部分是有一个从量变到质变勺过程的, 机房设备的使用寿命也有一定的规律可循,而且所有机房设备的运行故障必定有其特定的 原因据此,通过健全科学的实时监控措施,对发生故障随机性强的机房保障系统进行长 期实时检测,经过对采集的运行参数的有机分析,及时采取有效的规避风险的措施由实 时监控系统建立的预警系统,可以达到对其监控设备的运行状态检测、运行异常警告、运 行故障原因分析,从而达到运行故障防范和及时处置的目的3) 应急方案应对运行风险的目标,是尽可能避免发生运行风险,一旦发生风险就要做到 快速反应,快速恢复既然机房运行风险是客观存在的,同时必须承认,有些机房运行风 险发生的时间是无法预控和预知的对此,理想的选择是建立一整套科学有效的“机房运 行风险应急方案”包括启动运行危机处置的报告体系、负责人力资源调动和现场协调指 挥的组织机构,负责执行风险处置的各方面专业技术人员及联络体系,指导具体操作的完 善详尽的《异常处置应对方案》机房运行应急方案”,特别重要的是可用性,即实用、能用、会用其基本原则是制 定方案分门别类,描述内容直观明晰,处置方法准确详尽,应急效果可靠稳妥。
必须关注 整个应急处置过程的所有细节,包括异常分析判断、启动联系协调手段、应急人员备份、 处置工具器材等;应急方案必须具备多种级别的应对措施,任何情况下,避免出现无所作 为或无法应对的局面同时特别重要的是对应急方案的应用能力,平时认真组织模拟演练 的方法,可以提高应急处置水平总之,高度重视机房运行保障的重要性,客观地认知机房运行规律,科学地应对机房运行 风险,不断探索和掌握机房运行维护技术,不断提高机房保障管理水平,就能最大限度地 规避机房运行风险,为各种计算机应用业务提供可靠保证。












