
机房故障检测流程课件.ppt
70页机房故障处理的一般流程机房故障处理的一般流程和常用方法和常用方法---Written by wws---Written by wws机房故障检测流程几点说明•介绍常见故障的分析思路和处理方法,以实用为主•以程控为蓝本做穿插介绍,其思路和方法也适用于机房其他大多数设备•以听为主机房故障检测流程预备知识预备知识应该具备的基础知识应该具备的基础知识机房故障检测流程对维护人员的基本要求•具备一定的专业素质和技能• 对系统和组网的熟悉•对设备的操作 •对仪器、仪表的掌握 机房故障检测流程专业素质和技能维护人员应做到以下应知应会:1.熟悉PCM原理、SDH原理、交换原理等通信专业知识2.熟悉交换机的功能结构、呼叫流程、业务流程等产品相关 知识3.熟悉中国一号信令、No.7信令、DSS1信令、V5.2协议等相关信令协议4.熟悉相关国标技术规范5.熟悉计费原理及流程6.了解以太网、TCP/IP、Client/Server、数据库常识等计算机网络基础知识7.熟练掌握程控交换机日常操作及计算机基本操作机房故障检测流程对系统和组网的熟悉•熟知C&C08的硬件结构及性能参数•熟知C&C08各模块在网络中的地位。
•熟知C&C08各模块间及到各局所的路由组织•熟知C&C08与各组网设备所使用的信令或协议•熟悉相关传输设备的网络结构和信道分配机房故障检测流程对设备的操作–哪些操作将导致部分或全部业务中断–哪些操作将造成设备损坏–哪些操作将对计费产生重大影响–哪些操作将导致用户投诉–有哪些应急或备份的措施机房故障检测流程对仪器、仪表的掌握–万用表–七号信令分析仪–PCM分析仪–光功率计–示波器–E10表机房故障检测流程故障处理的一般流程•信息收集•故障判断•故障定位•故障排除机房故障检测流程信息收集信息收集尽可能详尽地获取各种原始信息尽可能详尽地获取各种原始信息1 of 4机房故障检测流程故障信息来源的四种途径•用户或客服中心申告•相邻局维护人员的通告•交换机告警系统的告警输出•日常维护或巡检中所发现的异常机房故障检测流程信息收集•必要性•实用性机房故障检测流程机房巡视路线图交换传输/其它电源发电机房机房故障检测流程巡视内容•设备运行状况•机房卫生•空调运行情况(夏季)•机房其它异常情况机房故障检测流程维护建议之一•维护人员要有收集相关信息的强烈意识,在遇有故障特别是重大故障时,一定要先弄清楚相关情况后再决定下一步的工作,切忌盲目处理。
机房故障检测流程维护建议之二•维护人员要加强业务学习,特别是系统原理和信令知识,这样,在故障的情况下才能快速联想,把思路引向问题的焦点 机房故障检测流程维护建议之三•在接听故障申告(通告)时,维护人员要善于引导,尽量从多方面、多角度提问或询问相关问题 机房故障检测流程维护建议之四•维护人员应加强横向、纵向的业务联系,建立与其他局所或相关业务部门(如传输机房等)维护人员的良好业务关系,这对于信息交流、技术求助等都是很有帮助的机房故障检测流程故障判断故障判断确定故障的范围与种类确定故障的范围与种类2 of 4机房故障检测流程确定故障的种类与范围•种类---故障发生的所在区域•范围---故障性质机房故障检测流程故障定位故障定位确定故障的具体原因确定故障的具体原因3 of 4机房故障检测流程 故障定位就是“从众多可能原因中找出这个单一原因”的过程,它通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因 准确而快速的定位不仅有利于提高故障处理的时效,而且还可以有效避免因盲目操作设备而导致故障扩大化等人为事故,为采取何种手段或措施排除故障提供指导和参考,是故障处理过程中的重要环节。
机房故障检测流程故障排除故障排除采取适当的措施或步骤,清除故障、采取适当的措施或步骤,清除故障、恢复系统恢复系统4 of 4机房故障检测流程故障排除•在故障原因最终定位以后,就进入了故障处理程序的最后一步——排除故障•排除故障是指采取适当的措施或步骤清除故障、恢复系统的过程如更换故障单板、修改配置数据、倒换系统、复位单板等机房故障检测流程故障判断与定位的常用方法•原始信息分析•告警信息分析•指示灯状态分析•拨测辅助分析•仪器、仪表辅助分析•话务统计分析•接续、信令跟踪•测试、环回•对比、互换•倒换、复位•请求厂家技术支持机房故障检测流程原始信息分析•原始信息是指通过用户故障申告、其他局所故障通告、维护中所发现的异常等所反映出来的故障信息,以及维护人员在故障初期通过各种渠道和方法收集到的其他相关信息的总和,是进行故障判断与分析的重要原始资料•原始信息分析主要用来判断故障的范围、确定故障的种类,在故障处理的初期阶段,为缩小故障判断范围、初步定位问题提供判据如果维护经验丰富,甚至还可以直接定位故障 机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程告警信息分析•告警信息是指交换机告警系统输出的信息,通常以声音、灯光、LED显示、屏幕输出等形式提供给维护人员,具有简单、明了的特点,其中告警维护台输出的告警信息,包含故障或异常现象的具体描述、可能的发生原因、有哪些修复建议等等,涉及硬件、链路、中继、计费、CPU负荷等交换机的各个方面,信息量大且全,是进行故障分析和定位的重要依据之一。
•告警信息分析主要用于查找故障的具体部位或原因,由于C&C08告警台输出的告警信息丰富、全面,因此常常可以用来直接定位故障的原因,或配合其他方法共同定位故障的原因,是故障分析的主要手段之一 机房故障检测流程告警窗口机房故障检测流程告警信息输出机房故障检测流程机房故障检测流程指示灯状态分析•C&C08交换机的每块单板上都有相应的运行、状态指示灯,有的还有功能或特性指示灯,这些指示灯除了直接反映相应单板的工作状况以外,大部分还可反映诸如电路、链路、光路、节点、主备用等的工作状态,是进行故障分析和定位的重要依据之一•指示灯状态分析主要用于快速查找大致的故障部位或原因,为下一步的处理提供思路由于指示灯所包含的信息量相对不足,因此,它常常与告警信息分析配合使用 机房故障检测流程设备指示灯面板机房故障检测流程灯名颜色含义说明正常状态RUN红色运行指示灯1秒亮1秒灭:单板正常运行灭:DTM与NOD通信失败1秒亮1秒灭CRC1绿色第1路CRC4检验出错指示灯亮:表示第1路CRC4检验出错灭:表示检验正常灭LOS1绿色第1路信号失步指示灯亮:表示第1路信号失步灭:表示信号正常灭SLP1绿色第1路信号滑帧指示灯亮:表示第1路信号有滑帧灭:表示信号正常灭RFA1绿色第1路信号远端告警指示灯亮:表示第1路信号远端告警(对告)灭:表示信号正常灭CRC2绿色第2路CRC4检验出错指示灯亮:表示第2路CRC4检验出错灭:表示检验正常灭LOS2绿色第2路信号失步指示灯亮:表示第2路信号失步灭:表示信号正常灭机房故障检测流程拨测辅助分析•在交换机所提供的所有业务中,语音占很大部分,因此,与交换机有关的大部分故障原因,往往会直接或间接地影响到用户的正常呼叫功能,因此,利用拨测这一最直接的方法来判断交换机的呼叫处理功能和相关模块是否正常,是一种简单、快捷的方法,常常用来判断用户外线、交换网络、中继系统、计费系统等是否正常。
机房故障检测流程仪器、仪表辅助分析•应用仪器、仪表进行故障分析与定位,是交换机故障处理常用的技术手段它以直观、量化的数据直接反映故障的本质,在外线分析、电源测试、信令分析、波形分析、误码检测等方面有着广泛的应用 机房故障检测流程话务统计辅助分析•接通率是程控交换机的一个重要技术指标,它直接影响到运营商的经济效益和客户服务满意度,是电信运营商核心竞争力的要素之一,因此,提高接通率并降低呼损,是运营商们普遍关注的重要内容•但是,影响程控交换机接通率的因素纷繁复杂,而且偶然性大,难以有效地加以预测因此,提高接通率的关键就在于要能够及时地找出引起呼损的主要因素并加以有效地防范,话务统计就是这样一个有力的分析工具 机房故障检测流程接续、信令跟踪•接续、信令跟踪在分析用户呼叫接续、局间信令配合等过程的失败原因方面有着重要的应用利用跟踪的结果,常常可以直接得到呼叫失败的原因,找出问题的症结所在,或者从中得到启发,为后续分析提供宝贵的思路 机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程测试\环回•测试主要是指借助于仪器仪表、软件测试工具等手段,对可能处于故障状态的用户线路、传输信道、中继设备等进行相关技术参数的测量,根据测量的结果判断设备是否已经故障或者正处于故障的边缘。
•环回主要是指采用硬件或软件的方法,对某一传输设备或传输信道采取自发自收(自环)的方法,通过判断自环后传输设备、传输信道、业务状况、信令配合等情况的正常与否,来确定相关硬件设备的状况、软件参数的设置是否正常,是定位传输问题、中继参数设置是否准确等的最常用方法之一 机房故障检测流程机房故障检测流程机房故障检测流程机房故障检测流程特别提示•软件环回有时由于疏忽往往容易忘记取消环回,从而给交换机的运行带来一定的操作隐患,因此,为了避免此类事件的发生,我们建议维护人员应养成经常记录的习惯 机房故障检测流程对比/互换•对比是指将故障的部件或现象与正常的部件或现象进行比较分析,查出不同点,从而找出问题的所在,一般适用于故障范围单一的场合•互换是指用备件进行更换操作后,仍然不能确定故障的范围或部位,此时将处于正常状态的部件(如单板、光纤等)与可能故障的部件对调,比较对调后二者运行状况的变化,以此判断故障的范围或部位,一般适用于故障范围复杂的场合 机房故障检测流程机房故障检测流程特别提示•互换操作具有一定的风险性,例如,将处于短路状态的单板换到正常的机框后又造成正常机框损坏等,因此,互换方法的使用需要谨慎行事,要以确保不导致新故障为前提。
机房故障检测流程倒换/复位•倒换是指将处于主备用工作方式下的交换机进行人工切换的操作,也就是说将业务从主用设备上全部转移到备用设备上,对比倒换后系统的运行状况,以确定主用设备是否异常或主备用关系是否协调•复位是指对交换机的部分或全部进行人工重启的操作,主要用于判断软件运行是否混乱、程序是否“吊死”等软件BUG问题,是不得已采取的极端操作行为•相对于其他方法而言,倒换或复位不能对故障的原因进行精确定位,而且由于软件运行的随机性,倒换或复位后故障现象一般难以在短期内重现,从而容易掩盖故障的本质,给交换机的安全、稳定运行带来隐患,因此,该方法只能作为一种临时应急措施,在迫不得已的情况下谨慎使用 机房故障检测流程机房故障检测流程特别提示•对主控类单板的倒换操作一定先执行备份操作,避免话单、系统数据丢失•由于复位操作常常会导致系统业务的中断,甚至可能由于操作不慎而导致系统瘫痪,给交换机的日常运营带来严重的负面影响,因此,该操作仅适用于影响范围小、有备份措施或经上级批准操作的场合,一般情况下,不建议使用复位操作来进行故障的定位机房故障检测流程寻求厂家技术支持•交换局点的详细名称(全称)•联系人姓名、号码•故障发生的具体时间•故障现象的详细描述•交换机的主机软件版本•故障后已采取的措施和结果•问题的级别及希望解决的时间机房故障检测流程华为联系方式•8008302118•S机房故障检测流程课程回顾•预备知识(应知应会—基本要求)•故障处理的一般流程•故障定位、分析常用的方法(11种)机房故障检测流程谢谢谢谢 大家大家!!! !!!WwsWws May 18 2011 May 18 2011机房故障检测流程课程笔记之一对维护人员的基本要求•具备一定的专业素质和技能• 对系统和组网的熟悉•对设备的操作 •对仪器、仪表的掌握 返回机房故障检测流程故障处理的一般流程•信息收集—尽可能地获取各种原始信息•故障判断—确定故障的种类和范围•故障定位—确定故障的具体原因•故障排除—采取适当的措施或步骤清除 故障、恢复系统。
课程笔记之二返回机房故障检测流程故障判断与定位的常用方法•原始信息分析•告警信息分析•指示灯状态分析•拨测辅助分析•仪器、仪表辅助分析•话务统计分析•接续、信令跟踪•测试、环回•对比、互换•倒换、复位•请求厂家技术支持课程笔记之三返回机房故障检测流程。
