
IDC机房故障及案例举析ppt课件.ppt
41页IDC机房故障及改造的案例举析主讲人: 杜秋 18918033303189目目 录1IDC机房机房电电力系力系统统故障故障举举析析2将将单电单电源回路系源回路系统统的的IDC机房机房实现实现低成本低成本在线改造成双改造成双总线总线供供电结电结构的构的实实例例举举析析3综综合体会、提合体会、提问问与与讨论讨论一、一、IDC机房机房电力系力系统故障故障举析析1 1、、IDCIDC机房电力系统故障举析机房电力系统故障举析1、、举举例一:例一:某某400KVA*((3+1〕 〕UPS输输配配电电气气结结构构图图;;3.15电电容泄露事故;容泄露事故;5.13电电子开关子开关误动误动作等引起作等引起单单点故障的点故障的实实例例解析;解析;9.09电电池开路的断池开路的断电电事故;事故;400kva*400kva*((3+13+1〕〕UPSUPS系统系统2、、举举例二:某机房例二:某机房300KVA*((2+1〕 〕UPS输输配配电电气气结结构构图图,,UPS维维修修时误时误操作引起操作引起单单点点故障故障实实例解析;例解析;2 2、、IDCIDC机房电力系统故障举析机房电力系统故障举析300KVA300KVA〔〔2+12+1〕〕UPSUPS系统系统3、低、低压压系系统统失失压压保保护护装置引起的惊装置引起的惊险险与分析与分析3.07张张江江6.02张张江江5.12真北真北3 3、、IDCIDC机房电力系统故障举析机房电力系统故障举析1、2019年12月24日,湖南荷花园局因UPS输入开关跳闸,造成该省分公司CRM系统、集中计费系统、 10000号系统、综合结算系统、网上营业厅 、WAP业务系统 中断服务近2小时;2009年3月,湖南荷花园同一UPS系统因电容器炸裂,又一次导致服务中断事故; 2、2009年2月16日,上海信息园区增值业务机房因UPS电源系统故障,导致机房内新建WAP系统、NMSC系统、ISAG Router系统、BREW系统、PIM系统、OTA&KJAVA系统〔未正式上线〕以及机房出口网络设备中断近2小时50分钟,造成全网189用户上述业务服务全部中断; 4、集、集团团公司公司级级08-09年的大型事故年的大型事故5、集、集团团公司公司级级08-09年的大型事故年的大型事故3、2009年4月27日,集团京门机房UPS供电系统输入开关跳闸〔后查明开关整定值设置偏小),维护人员在紧急处置时误操作外置维修旁路开关,造成UPS系统供电中断。
导致京门机房21个C网业务平台服务中断;4、2009年5月8日,青海格尔木局因外部市电原因导致直流供电系统毁坏,造成该局近两万用户,200多宽带用户中断4个多小时; 5、2009年6月5日,因雷暴天气造成外部市电多次闪断,安徽合肥五里墩电信大楼一个直流系统蓄电池经过二次短时放电(每次3到5分钟),在第三次放电3分钟后中断导致短信互通网关、本地传输、省内数据骨干网ATM、城域网BRASE设备、本地交换用户近2万户、12个移动基站等中断近27分钟6、、综综合分析合分析1、 电源系统设计不尽合理,UPS系统主机旁路输入与主输入共用一个输入开关,在某一单机故障时,极易导致故障扩大例:上海信息园区2.16故障、湖南荷花园3月份断电故障) 2、供电回路上下级开关匹配〔含整定值匹配〕不合理,导致故障从某单点向上级扩大另外,单回路供电系统的设计,系统基本上没有可维护性,处于看守式维护,被动等待故障的出现; 3、现网电源设备超期服役状况严重,特别是2V蓄电池组,运行时间超过8年后〔6V\12v不建议超过6年〕随时可能出现放不出电的现象〔例:安徽合肥电源中断事故) 4、不严格执行机房无人值守的条件,在远程维护手段不具备〔无监控)、维护职责未落实的情况下,对电源设备实行无人值守。
在出现输入开关跳闸、市电中断等前兆性故障时,没有及时处理恢复,导致故障扩大,造成业务中断〔例:湖南荷花园12月24日故障,青海西宁格尔木路局5月8日故障);5、电源维护人员数量配置不足,专业技能欠缺,在正常维护检查中不能及早发现故障苗头,甚至误操作导致故障或导致故障扩大〔例:京门4月27日UPS故障); 6、电源应急预案及故障操作、处理流程不完善,导致操作失误或处理时间过长造成故障扩大〔例:例:京门4月27日UPS故障,青海西宁格尔木路局5月8日故障)二、将单电源回路系统的二、将单电源回路系统的IDCIDC机房实现低成本机房实现低成本改造成双总线供电结构的实例举析改造成双总线供电结构的实例举析1、原系统供电结构图2、系统参数及历史故障概述a)a)该机自该机自20192019年投入运行的到年投入运行的到20192019年,未发生过具有重大影响的电力事故;年,未发生过具有重大影响的电力事故;b)b)0808年以来,以年以来,以UPSUPS为主的电力事故接连不断,其中为主的电力事故接连不断,其中2 2次重大的断电事故,间、直接损失超千万究次重大的断电事故,间、直接损失超千万究其事故的表面原因,多为其事故的表面原因,多为UPSUPS设备及电池老化、性能下降、故障率上升、市电超限、输配电器件设备及电池老化、性能下降、故障率上升、市电超限、输配电器件误动作所致,但其实质是单电源、单回路的配电结构没有对负载形成应有的冗余回路保障等原因,误动作所致,但其实质是单电源、单回路的配电结构没有对负载形成应有的冗余回路保障等原因,使小故障升级引起的重大事故。
使小故障升级引起的重大事故机房区面积机架数量电力区面积UPS配置理论后备时间市电配置空调数量制冷量570m2237只150m212P-300KVA*2+136min2*1600KVA17台约900kw空调能耗功率UPS输入UPS输出Ups效率空调能效比视在功率有功功率THDUTHDICOSΦ视在功率有功功率THDUTHDICOSΦ310KW580kva420kw3.4%7.4%0.72425kva349kw0.6%17.1%0.8273%0.893、单路径的缺陷分析a)ATS1的单点性:从市电输入侧看,虽然市电1、2形成了双路输入,但ATS1就是一个单点故障点;b)ATS2的单点性:虽然由ATS1转换后的两路市电与柴油机组通过ATS2形成了有效的回路备份,但ATS2的单点故障性将使3路电源的备份形同虚设〔排除柴油机容量不足的问题);c)UPS总输出开关柜的单点性:虽然在UPS输入柜中的各分机主输入和旁路输入端都都设置了分路开关,看上去与2+1的UPS设备已经形成了有效分路备份,但却在总输出开关柜中将所有UPS的输出通过母排并接在一个总容量为1250A的电子开关〔K1〕的上桩头,无疑是一个致命的单点故障点,如果该开关故障或者误动作,将会使整个的后端负载失电〔其中一次达的断电事故便是由此开关受谐波干扰后的误动作引起的)!d)下游的单点性:从UPS总输出柜K1的下端直至机房内的配电尾端——机架,可以看出所有的路径均是单路径的单点配电结构,其中任何一个中间器件故障都会影响其下级设备的正常运行,只是不同点位的故障影响范围有所区别罢了;4、设备及下走线的缺陷a)UPS设备老化的缺陷分析:从表2数据输入功率因数0.77,输入输出效率70%可知,其UPS的运行参数已远远偏离了其高效节能的合理区间。
该UPS设备在日常运行中,时常出现误告警、实际运行参数和显示参数不一致、误转或拒转旁路、逆变器IGBT击穿、交直流电容泄露等严重的故障现象,所以更新该套UPS设备也属必然!b)下走线的缺陷:该机房原采用的活动地板下送风、上回风的送风方式,但地板下走线方式,严重制约了空调的制冷和送风效果,致使空调系统的能效占比高、效率低〔表2数据),从节能减排的角度出发,对本系统改造和更新也是迫切需要5、改造方案及解析:、改造方案及解析:a)a)改造目改造目标::b)b)将低效能的旧将低效能的旧UPSUPS及蓄及蓄电池系池系统在更新;更新;c)c)将将单回路供回路供电模式改造模式改造为双双总线结构的供构的供电模式;模式;d)d)地板下地板下综合布合布线的走的走线方式改方式改为上走上走线方式;方式;e)e)改造原改造原则::f)f)改造全改造全过程不能中断或影响程不能中断或影响业务的正常运行,尽的正常运行,尽量利用原系量利用原系统的的输入入输出配出配电柜和可用柜和可用线路,路,节约投投资;;6 6、高可用双总线结构的、高可用双总线结构的UPSUPS供电系统供电系统目前,业内比较流行和公认的目前,业内比较流行和公认的““高可用双总线高可用双总线UPSUPS供电系统〞结构由三部分组成:供电系统〞结构由三部分组成:前级输入:两路以上的市电、油机及适当数量的前级输入:两路以上的市电、油机及适当数量的ATSATS组成的输入配电系统,系统组成为组成的输入配电系统,系统组成为2*AC+M*ATS2*AC+M*ATS;;不间断电源设备:采用不间断电源设备:采用2*N2*N或或2*2*((N+1N+1〕〕UPS+UPS+电池系统,组成不间断供电系统;电池系统,组成不间断供电系统;后级输出:由若干数量的静态开关组成的不间断自动切换装置,内容为后级输出:由若干数量的静态开关组成的不间断自动切换装置,内容为K*STSK*STS;;7、改造方案---Aß实现“双UPS系统的双总线〞结构的供配电模式,该方式是目前IDC机房比较通用的双总线结构的冗余配电方式,是将容量相等、组合方式相同的两套UPS系统,相互线路独立、全容量互备的供电方式直到机架:ß实现“单UPS系统+AC+集中式STS的双总线〞结构的供配电模式7、改造方案---Bß实现“单UPS系统+AC+模块化STS的双总线〞结构的供配电模式7、改造方案---C8、三种方案的、三种方案的优优缺点比缺点比较较内容方案A方案B方案C系统组成1.1250A –ATS柜,4组;2.300kva 2*(2+1)UPS、830KVAh蓄电池组,4组;3.STS配电柜,m组;1.1250A –ATS柜,4组;2.300kva(2+1)UPS、830KVAh蓄电池组,2组;3.STS配电柜,m组;1.1250A –ATS柜,4组;2.300kva(2+1)UPS、830KVAh蓄电池组,2俎;3.STS模块,237只;优点1.两套独立UPS系统,配电结构比较清晰;2.市电中断时,后备时间长;3.系统的可靠性高;1.相比方案A投资较少;2.相比方案A占地面积小;3.相比方案A后期维护的量和费用要少;1.相比方案A/B,投资最少;2.占地面积最小;3.后期维护费用最少;4.单STS模块单点故障时影响面最小;5.系统可维护性高;6.改造过程不需中断业务;7.改造后单机架用电可远程监控;缺点1.总体投资大;2.占地面积大;3.后期维护的量和费用高;4.STS设备形成新的单点故障点,STS数量越少逻辑位置越靠前,单点故障的影响面越大;5.系统可维护性低;6.改造后机架不可远程监控;1.市电中断后,电池后备时间短;2.STS设备形成新的单点故障点,STS数量越少逻辑位置越靠前,单点故障的影响面越大;3.系统可靠性、可维护性低4.改造过程需长时间中断业务;5.改造后机架不可远程监控;1.市电中断后,电池后备时间短;2.STS设备形成新的单点故障点多,逻辑位置靠最后,STS数量越(少)多,数量的增加致使设备故障率上升;可行性分析改造过程需长时间中断业务,没有足够可用的物理空间,在本项目中实际不可行改造过程需长时间中断业务,在本项目中实际不可行改造过程仅部分设备有计划地短时断电,可行、可控9、计算机负载对电源的要求性能指标计算机类负载的要求电压稳定精度+15%,-20%、+20%,-35%波形失真度有效值峰值变化=稳压精度范围三相电压不平衡度<5%频率变化范围+200%/-10%市电掉电时转换时间(ms)<10ITIT设备输入电压与时间设备输入电压与时间关系的参数曲线见右图:关系的参数曲线见右图:((IEC -62040-3 IEC -62040-3 规范)规范)10、STS数量和逻辑位置的选择与比较11.1、机架式、机架式STSß电压范围为:180VAC到265VAC,实测切换时间小于8ms;ß8*4A输出插座〔总和为16A),带各分路过载保护功能;ß机架式安装:2u*19’’*360mm;ß可自由编程在不同电源时每路负载是否输出,带网卡,具备丰富地监控功能,采用基于SNMP标准协议的远程监控软件〔Web/WapServer),支持window、linux等常用操作系统,并具备地图索引功能;11.2、机架式、机架式STSß电力接入方式类似机架式STS。
ß其电压范围为:180VAC到265VAC,实测切换时间小于18ms;ß8输出插座〔总和为16A),无各分路过载保护功能;ß机架式安装:1u*19’’*180mm;ß带网卡,无标准监控软件;12、机架式、机架式ATS13、模块化ATS和STS测试比较项目机架式ATS机架式STS切换时间同相位7-8ms0-7ms非同相位(相差120°)13-15ms6-7ms反相位(相差180°)13-15ms0-7ms两个独立电源13-18ms0-7ms输出过载控制8输出口集中动作8输出口分别单独动作安装方式19英寸标准机架,1u19英寸标准机架,2u结论:结论:只有只有STSSTS才能满足计算机负载不断电的自动切换参数需求才能满足计算机负载不断电的自动切换参数需求14.1、方案、方案选择选择及及经济经济性分析:平安性分析:平安ß不同方案的性能参数差异比较表内容描述2(2+1)300UPS到机架,无自切(2+1)300UPS+AC+大型STS 柜(2+1)300UPS+AC+机架式STS(2+1)300UPS+AC+机架式ATS转换时间无转换0-8ms0-8ms8-16ms安装简易程度无需安装电气布线安装简便、灵活调节可靠性单电源设备丧失2(N+1)功能单点故障点多、影响范围大所有设备均受双电源保护,模块数量增多使单点故障率上升,单点故障影响范围小安装、维护的简易程度不维护必须现场维护可拆卸更换、可离线维修方便维护和安装较难于维护和安装同步要求无双路必须同步无需同步要求可扩展性无无可扩展性可扩展切换时间测试无无小于8ms10-18msß改造投资比较表〔费用周期按UPS设备8年的寿命周期计)14.2、方案、方案选择选择及及经济经济性分析:投性分析:投资资内容描述2(2+1)300UPS到机架,无自切(2+1)300UPS+AC+大型STS 柜(2+1)300UPS+AC+机架式STS(2+1)300UPS+AC+机架式ATS自切装置费用0180—300万元200万元190万元UPS设备及电池580万元290万元290万元290万元主回路配电柜150万元120万元120万元120万元主材电缆180万元150万元180万元180万元新增场地及费用(5元/天.m2)占地135m2,租金200万元0008年设备维护费144万元110万元90万元90万元4年电池更新费240万元120万元120万元120万元合 计1454万元1090万元1000万元990万元备注:UPS及电池—100元/KVA.年;STS柜—10000元/柜.年;STS\ATS模块---100元/只.年ß改造前后产生的经济效益比较表〔按现负载容量情况,一年度为计算单位)14.3、方案、方案选择选择及及经济经济性分析:效益性分析:效益内容描述1、假设采用2(N+1)300UPS2、改造后(2+1)300UPS3、改造前(2+1)300UPSUps的输出参数425kva、365kw、COSΦ=0.85、THDI=17.1%(后端负载特性需求)Ups输出负载率23.6%47%47%UPS效率85%(低负载率)90%73%UPS输入THDI5%5%7.4%UPS输入COSΦ0.85(低负载率)0.90.72Ups输入功率/472KVA(425kw)580KVA(420kw)Ups改造前后的电能损耗节约/以此为0作为核算基准值,增则+,减则-+90万kw.h(按市电补偿COSΦ=0.95计)空调能耗/198kw(实测300A)(环境温度23-28度)310kw(实测470A)(环境温度23-28度)空调节能/0+98万kw.h空调能耗占比空调系统能耗功率(198kw):UPS输出的有功功率(349kw)=0.57结论1.通过UPS设备改造前后系统效率的提升可节约电能约95万kva.h(90万kw.h),另含下走线拆除后空调能耗的降低112kw计,其机房年节约电能188万度/年,节约运行资金154万元/年(0.82元/kw.h);2.采用(2+1)300KVA-UPS+AC的模式相比采用2(2+1)300KVA-UPS双总线结构的系统模式,可节约拥有成本454万元(能耗节约主要为(2+1)300KVA-UPS的空载损耗上,按单台10kw计约26万kw.h);15.1、系、系统统割接割接-----机架机架ß下走线方式改造为上走线方式的割接方案15.2、系、系统统割接割接-----电电力室力室16、小结目前,国内建设的早期IDC机房基本上都到了设备更新的寿命周期,原有的单路供电结构,用电效率低、设备故障频发、安全系数不高等缺陷都或多或少地制约了业务的发展,本工程的有效尝试,为类似的机房的改造提供了可借鉴的经验,同时也为“低成本〞和“〞的实现途径进行了有益的探索。
总结本工程,有几个问题需要进一步思考:传统的UPS供电系统方案已经走过了50年,为保障系统的高可用性,IDC供电系统设计建造的现状和趋势是:系统不断复杂化,造成设备堆积、结构臃肿,从而导致IDC机房的建设成本不断攀升但高成本和高投资并不等同于高可用性,所以在旧系统改造和新系统建设时,迫切需要我们去探索和优化新的建设设计方案;复杂的配电结构和设备堆积致使设备效率难以再有效提高,在能源紧张和国家积极倡导节能减排的今天,需要在高可用性的基础上探索有效的节能减排方案;虽然,不同的机房其建设和发展历史不同,从而造成现有的IDC机房的供电结构五花八门,难以标准化的现状给系统的维护和改造带来很大的难题,但是探索新的供电结构、配电方式等行之有效的改革措施仍然是刻不容缓的!三、三、综合体会、提合体会、提问与与讨论1.1.IDCIDC机房是一个综合性的系统,系机房是一个综合性的系统,系统中各分项间遵循统中各分项间遵循““木桶原理木桶原理””,保持综合平衡是机房系统稳定,保持综合平衡是机房系统稳定的前提;的前提;2.2.各分项的自身元素也遵循各分项的自身元素也遵循““木桶木桶原理〞之说;原理〞之说;3.3.IDCIDC机房系统的安全性是以整个系机房系统的安全性是以整个系统之中各链条上的最薄弱点为计统之中各链条上的最薄弱点为计算基准的;算基准的;4.4.机房系统的建设投资、客户定位机房系统的建设投资、客户定位和经营收益的中庸之道。
和经营收益的中庸之道机房机房电力电力空调空调综合监控综合监控及其他及其他1、IDC机房综合系统的体会 1.1.市电高低压系统、后备柴油机组;市电高低压系统、后备柴油机组;UPSUPS系统、综合配电;系统、综合配电;2.2.2.2.各系统的容量配置、结构组合、品牌选择等均和系统各系统的容量配置、结构组合、品牌选择等均和系统运行的安全性、经济性相互制约;运行的安全性、经济性相互制约;3.3.3.3.用户的性质和等级、工程建设部门、运行维护部门、用户的性质和等级、工程建设部门、运行维护部门、业务经营部门等,各单位部门所站的角度不同,其所注业务经营部门等,各单位部门所站的角度不同,其所注重的方向也各异;重的方向也各异;4.4.4.4.所以,是否是最好的,不能站在一个角度评定,其最所以,是否是最好的,不能站在一个角度评定,其最终的平衡点便是综合的终的平衡点便是综合的““中庸之道中庸之道””!!2、IDC机房电力系统的体会3、IDC的建设成本 机房是一个机房是一个综综合的系合的系统统,它包含了方方面面的地,它包含了方方面面的地问题问题,撇开建,撇开建设设内内容、地域容、地域环环境、品境、品质质定位、参数定位、参数选择选择、基、基础设础设施条件、建施条件、建设时间设时间等具等具体体环节环节,独立地,独立地谈谈建建设设成本及成本及经济经济性,将失去可比性;性,将失去可比性; 以某机房以某机房400只机架工程只机架工程项项目目为为例:共例:共18400的的U位空位空间间,,约约5U/m3、、单单系系统统UPS及空及空调调冷量的配比冷量的配比为为87VA/U;;总总投投资资成本成本为为1630元元/U〔 〔不含市不含市电电和油机系和油机系统对应统对应容量的投容量的投资资、、单单UPS系系统统,假双路供,假双路供电电,,单单点点隐隐患的缺陷患的缺陷严严重)。
重)4、IDC的运行成本1 1、电力成本:市电容量、电力单价、冗余容量等方面问题在不同的地、电力成本:市电容量、电力单价、冗余容量等方面问题在不同的地域缺乏类比的条件;域缺乏类比的条件; ( (如:某大楼如:某大楼1.21.2元元/KWh/KWh,外高桥内外界条件不同情况下,外高桥内外界条件不同情况下0.69~1.60.69~1.6元元/KWh/KWh)另外,空调型式及运行效率也是一个关键的方)另外,空调型式及运行效率也是一个关键的方面〔上、下送风系统、外界环境、气流组织等条件不同,有约面〔上、下送风系统、外界环境、气流组织等条件不同,有约1-21-2倍的差别);倍的差别);2 2、人力成本:因地域、人力配置、管理规范等不同而异;、人力成本:因地域、人力配置、管理规范等不同而异;3 3、带宽成本、维护成本:因不同机房的自然条件和公司特点各异!、带宽成本、维护成本:因不同机房的自然条件和公司特点各异!4、提、提问问与与讨论讨论谢谢聆听!谢谢聆听!。












