
江苏移动连云港分公司夜间网络故障调度流程.doc
12页连云港移动公司夜间网络故障调度流程连云港移动工程维护部2012年9月目 录一、 概述 3二、 监控事件调度及故障逐级上报制度 4三、 夜间故障监控调度范围及标准 6四、 网络故障调度流程图 8五、 故障短信报送标准 11一、 概述为进一步提高夜间网络故障(23点至凌晨6点)发生时的综合调度管理,各专业间协同做好故障处理,保障网络故障后快速、高效的处理特制定《连云港移动公司夜间网络故障调度流程》综合调度班为故障调度责任班组,在网络发生故障时负责故障通知、故障上报、故障调度处理,作为故障报送发布的统一接口,负责向省监控、公司部门领导、客户部等方面及时反馈故障处理情况,专业班组为故障处理的牵头班组,为故障处理的责任单位,故障处理结束后负责完成故障分析总结工作二、 监控事件调度及故障逐级上报制度(一) 监控调度工作包括事件发现、事件判断、事件预处理三个阶段1) 事件发现:通过厂家网管、综合监控网管系统产生告警、客服反映用户批量投诉、设备巡检发现网络异常问题等途径实时发现网络隐患2) 事件判断:对发现的网络隐患判断级别,从重到轻可分为故障事件、重要告警事件、普通告警事件a) 故障事件:包括严重告警事件、主要告警事件。
严重告警事件指对业务有影响、或批量投诉导致客服预警主要告警事件指存在较大隐患的故障,如果不处理会对业务造成影响,暂未引发客服预警的批量投诉b) 重要告警事件:重要告警但达不到严重主要告警事件c) 普通告警事件:其他告警或事件3) 事件预处理:根据事件级别,启动相应监控调度流程,对于故障事件,需启动紧急/一般故障调度,立刻通知专业班组,实时跟踪故障进展,根据级别进行升级通知,故障处理结束后进行故障总结分析对于重要告警事件,需进行阶段性督办,直至处理结束,做好督办记录对于普通告警事件按照工单流转进行闭环处理二) 监控调度严格执行逐级上报机制根据告警事件影响程度,综合调度班应明确内部逐级上报机制,值班人员第一时间内通知专业维护班组后,随着告警事件的逐步升级,应及时通知综合调度班班长、部门经理、分管副总当故障通知的第一响应人因故未接,值班人员应立刻通知第二响应人、专业维护班班长等异常情况包机人(A角/B角)班组长部门经理分管副总经理未接●● 告警事件升级普通告警事件● 重要告警事件● 故障事件主要告警事件●●严重告警事件●●●省内严重故障●●● ●集团重大故障●●●●备注:1、未接情况,采用逐级通知方式,包机人A未接,通知包机人B,包机人B未接,通知班组长,班组长未接,通知部门经理2、告警事件升级、严重故障、重大故障:可通过或短信方式升级通知到相关人员和领导(三) 故障事件界定标准业务类型 紧急故障调度标准一般故障调度标准核心网目的信令点不可达;5条以上MTP3链路故障;20条及以上E1/T1传输故障;3条以上MTP3链路故障;10条及以上E1/T1传输故障;无线网5个及以上2G基站或5个及以上TD基站(宏站不包括室分)同时阻断3个及以上2G基站或3个及以上TD基站(宏站不包括室分)同时阻断数据网30个AP同时中断20个AP同时中断2台以上前置机中断1台前置机中断动环网局站机房停电(开发区、综合楼)40个以上基站批量停电20个以上基站批量停电节点机房市电停电出现电池预警(一次下电)传输网30个及以上ONU口同时中断15个以上ONU口同时中断1个及以上OLT中断;SDH/PTN/波分汇聚环以上发生断环(影响业务)SDH/PTN/波分汇聚环以上发生断环(不影响业务)集客业务网5个及以上集团专线或2个及以上重点集团专线同时发生中断2个重点集团发生业务全阻网管中断网管中断超过30分钟(含传输、无线、动环等各专业)网管中断超过15分钟(含传输、无线、动环等各专业)大网客户投诉同一故障24小时内引发10起及以上投诉(含工单及)同一故障24小时内引发3起及以上投诉(含工单及)三、 夜间故障监控调度范围及标准网络类别设备类型重点关注告警通知人调度标准核心网媒体网关(MGW)1) 目的信令点不可达2) MTP3链路故障1) 设备班包机人钱洁2) 设备班班长刘鹏1) 1个局向发生“目的信令点不可达”故障历时2分钟未恢复通知设备包机人;包机人需在20分钟内赶到网管中心现场处理。
2) 1条以上MTP3链路故障通知包机人,对端局向为BSC/RNC的通知接入班陈亮处理;网管网1) 部分专业网管网不通2) 所有网管网故障1) 设备班包机人钱洁2) 设备班班长刘鹏1) 中断超过15分钟未恢复,通知包机人处理,包机人需在30分钟内赶到现场处理2) 中断超过30分钟未恢复,通知包机人处理,以及通知设备班班长,包机人及班长需在20分钟内赶到现场处理无线网2G/3G基站、小区、微蜂窝、MBO、CBO;直放站1)基站退服、小区退服;2)直放站轮询异常;3)厂家OMCR不可用或设备断连1)基站代维2)接入班倪立门3)接入班班长卞光蕾4)部门副经理李飞1)1个宏站退服5分钟内通知代维人员,7点钟故障仍然未恢复,监控通知接入班包机人倪立门;2)同时发生的3个及以上宏站批量退服5分钟内通知代维人员,8分钟内通知接入班包机人,10分钟内通知接入班班长,发布故障信息发布;3)5个以上宏站批量退服5分钟通知代维人员,8分钟内通知接入班包机人,10分钟内通知接入班班长,15分钟内通知部门分管经理;监控值班长负责发布“客服报送”、发布紧急故障信息发布; 3) 非宏站退服(1或2个扇区、wf、ETW、MBO、CBO),6点后通知代维人员;数据网AP1) AP退服1)基站代维2)接入班陈叶武1)同一个点10个以上AP批量退服5分钟内通知。
2)小于10个AP退服6点后通知代维人员; 动环网普通基站、节点机房1) 局站、节点机房告警2)基站烟雾、门禁、红外、水浸、高温;3)停电、电池电压低;3)端口断线1)基站代维2)倪立门1)“烟雾”告警监控“复位”无效后3分钟内通知代维(代维现场告警确认为真通知包机人、接入班长、部门经理);2)门禁、红外5分钟内通知代维人员,代维人员需现场确认如基站被盗启动“基站被盗流程”3)普通基站“电压低”一次下电,6点钟通知代维现场发电, 7点钟电压未恢复通知倪立门4)节点机房“电压低”10分钟内通知代维及设备班传输设备包机人陈杰、张天兴知晓,7点钟电压未恢复通知倪立门5)“端口断线”15分钟内通知代维人员处理(有被盗可能)传输网SDH/WDM/PTN/EPON1)本地网线路侧R_LOS、ETH_LOS;1)线路包机人杨瑞、严岩(分片区维护)2)设备班传输网管包机人(季瑾、陈杰、张天兴)1)5分钟内通知接入班线路包机人,2小时故障未恢复,邮件发送接入班成员;汇聚层故障2小时未恢复通知接入班班长卞光蕾(不影响业务)2)光缆断影响业务10分钟内通知受影响专业设备包机人(主干光缆断通知客响班);汇聚层光缆断调度班进行“信息报送”传输网OLT设备1) OLT设备退服2) 板卡故障3) 主干光缆断(非ONU停电)1) 设备班包机人张天兴2) 设备班班长刘鹏1) OLT退服5分钟内通知设备包机人,8分钟内通知集团、小区包机人;2) 板卡故障10分钟内通知包机人;3) 主干光缆断5分钟内通知接入网班线路维护包机人;15分钟内故障未恢复 “批量故障报送”邮件上报省客服,根据故障影响ONU数量30分钟内完成“故障信息发布”区分紧急或一般故障; 集客、家客地市级集团客户业务;小区宽带1) 集团语音专线、数据专线、互联网专线告警;2) 批量小区宽带故障。
1)小区客响班包机人王永晓,集团吴兆友2)接入班传输线路包机人杨瑞、严岩核心侧:1)OLT故障,5分钟内通知设备班张天兴,涉及传输故障同时通知传输线路包机人;PON信号丢失:2)1根以上主干光缆断5分钟通知接入班线路杨瑞、严岩;以上15分钟内邮件发布“批量故障报送”上报省客服,30分钟内完成“短信报送”;小区:3)20个以上ONU批量停电、离线退服通知客响班王永晓;4)ONU分支光纤断7点后通知小区代维;集团:5)涉及银行、邮政数据专线10分钟内通知客响班吴兆友;其它集团(故障数量小于3个)7点后通知集团代维省级重要专线 吴兆友提供清单】四、 网络故障调度流程图(一) 紧急故障调度流程:流程要点:1、 在故障事件呈现5分钟内,根据设备维护归属班组,通知责任专业维护班班长、部门分管经理同时通知代维公司人员并向省监控通报故障情况2、 责任专业维护班班长在接到综合调度班故障通知后,应立即通知包机人处理,并每30分钟向综合调度班值班长进行故障处理进展反馈3、 综合调度班应在故障事件呈现15分钟内,启动紧急故障调度流程,发送故障调度短信4、 综合调度班与责任专业维护班组确认故障对业务的影响,在故障发生15分钟内,综合调度班配合专业班组联系客服部门,通报故障并提供答复口径。
5、 对于故障归属专业较难判断的,由综合调度班从业务影响层面指定故障处理牵头专业维护班组,并在紧急故障报送短信中明确6、 在故障恢复15分钟内,综合调度班负责结束紧急故障调度流程,发送故障恢复短信7、 在故障发生24小时内,综合调度班牵头召开专项故障分析会议,专业维护班组在48小时内按照省内网络故障分析模板完成故障分析报告8、 被调度的紧急故障需要进行责任认定,对责任专业和代维公司方落实考核二) 一般故障调度流程:流程要点:1、 在告警事件呈现5分钟内,根据设备维护归属专业班组,通知到专业维护班组设备包机人员、同时代维公司人员2、 综合调度班应在故障事件呈现20分钟内,启动一般故障调度流程,发送故障调度短信3、 责任专业维护班组包机人应每30分钟向综合调度班值班长进行故障处理进展续报4、 对于故障归属专业较难判断的,由综合调度班从业务影响层面指定故障处理牵头专业维护班组,并在报送短信中明确5、 综合调度班与责任专业维护班组确认故障对业务的影响,在故障发生15分钟内,综合调度班联系客服部门,通报故障并提供答复口径6、 如果发现主要告警事件在处理过程中升级为严重告警事件,则立即转入紧急故障处理流程。
7、 在故障恢复15分钟内,综合调度班负责结束一般故障调度流程,发送故障恢复短信8、 在故障发生的第二个工作日专业维护班组牵头召开故障分析会,并按省内网络故障分析模板完成故障报告9、 被调度的一般故障需要进行责任认定,落实班组及代维公司考核(三) 其他调度流程流程要点:1、 故障发生到值班长跨专业完成预判断,需在10分钟内完成2、 代维公司现场人员遇到板卡备件、工程施工、物业纠纷等问题,合作单位内部无法解决时,应寻求专业维护班组支撑,并反馈综合调度班故障处理进展3、 故障历时超过1小时未恢复,综合调度班上报专业班组设。
