好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

集中化运维模式下的告警标准化管理分析.pdf

4页
  • 卖家[上传人]:j****9
  • 文档编号:47749997
  • 上传时间:2018-07-04
  • 文档格式:PDF
  • 文档大小:2.24MB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1 引言在现网集中监控工作中,笔者研究和分析发现:从生产要求的角度来看,不同省份、不同地区的运维生产人员对同一类通信设备缺乏统一、明确的认识,设备告警的重要程度没有标准,相同的故障在处理方法、处理要求、处理流程上不一致,全网的服务质量和响应不均衡,存在不同程度的网络隐患,全网统一调度指挥的效能还需进一步加强;从运维管理的角度来看,经过多年的积累,各省在网络服务和通信设备维护方面已有丰富的经验,但省间仍存在差异,如果将这些维护经验进行固化并形成一定的标准,可以大幅提高各省的运维能力,促进全网均衡协同发展综合考虑上述因素,笔者提出了实施“告警标准化管理”的设想,计划通过对现网通信设备产生的告警进行标准化定义和分级,并对告警处理的过程进行精细化管理,促进运维能力的提升2 告警标准化管理实施的总体思路告警标准化管理是一项系统的工程,其前提条件是不违背集中化管理原则,同时涉及运行维护管理、生产调度、网管支撑等多方运作实施范围包括核心网、无线网、数据网、传输网、动力环境系统集中化运维模式下的 告警标准化管理分析王歆波 李 威 徐海东中国移动通信集团公司 北京 1 0 0 1 4 0告警标准化管理项目的实施主要经过4个阶段,分别为管理建模和告警梳理、网管规范制定、现网试点、全网推广。

      管理建模和告警梳理阶段主要为:考虑集中监控工作的需要,结合运维管理经验,提出告警标准化模型和管理思路;对上述模型和管理思路进行解析和量化,将其转变成与网管支撑系统间的接口模型,让IT系统“认识”管理的本质,准确无误地传递管理思想;根据标准化模型,梳理全网设备告警网管规范制定阶段主要为:综合考虑全专业集中监控的需要,制定与之相适应的网管规范和阶段性的网管实施方案;根据精细化管理和生产运行的需要,建设相应的智能化网管支撑手段现网试点阶段中,主要选择部分省份根据网管规范和实施方案,在现网进行网管设备的部署和调整,并验证模型和管理思路的科学性和有效性总体而言,告警标准化的核心内容是标准化建模、精细化流程固化、智能化处理3 实施告警标准化管理3 . 1 建立科学的告警标准化运维模型建立告警标准化运维模型是本项目重要的基础告警标准化本身涵盖了丰富的管理信 3930 TelecommunicaTions Technology / 2009·4特别策划全业务下的运营支撑息,同时还跨越了多个网络系统、网管设备,需要将这些管理信息量化,变成科学的、系统性的、可扩展的管理架构和可执行、可管理、可维护的管理需求,让运维管理团队、网管支撑团队清楚管理的核心和目的,确保在各专业网络实施的时候规则和标准更为准确,是建模过程中需要重点关注的问题。

      在设计阶段,要尽可能提取出通信设备告警中的相同性质和功能进行价值判断,选用适合集中监控工作需要的同质内容进行归类、重组、建模;对于个别厂商的特性化语言,考虑通过解析的方法寻找共性的东西,从而满足标准化管理的需要,也便于网管系统的开发⑴告警定义标准化使用对象为运行维护团队,建模方法为:首先明确设备告警的标题、告警正文、网管告警ID、告警解释等信息,在此基础上,重定义网络设备告警的级别,映射为网管告警级别,其级别的划分规则主要建立在该告警对业务、设备的影响程度上网管告警ID是关键字,为后期进行设备告警的定位、专业内或跨专业设备告警的关联提供统一标识号告警解释是辅助字段,帮助运维人员理解告警的性质,对于部分厂商提交的英文字段信息或者是尚未描述清楚的告警信息进行补充说明网管告警级别是后期进行故障处理精细化要求的依据,从级别的定义上能立即判断该告警的重要程度,建立与之相对应的响应级别从表1可以看到,爱立信MSC_Server的2个告警,原有定义中分别为O1和A3级别,重定义后统一纳入到了4级告警,并根据前期制定的《网管告警ID编码规则》进行了ID号的编写针对厂商提供的告警英文信息,在告警解释里进行了说明。

      ⑵告警定位标准化使用对象为运行维护团队,建模方法为:建立告警逻辑分类和告警逻辑子类框架;建立告警事件对设备、业务的影响描述告警逻辑分类和告警逻辑子类将定位该告警在设备模块中的具体位置事件对设备的影响、事件对业务的影响则描述该告警对现网业务或设备的影响程度告警定位信息和告警定义信息通过网管告警ID实现关联同样用上文中的告警进行示例,见表2厂商设备类型告警标题厂商告警级别 网管告警级别网管告警I D告警解释告警类别爱立信MS C _ S e r v e rE M MA N U A L L Y B L O C K E DO 14 级告警0 0 1 - 0 0 3 - 0 0 -8 0 0 0 8 8人工闭塞E M产生该告警设备告警爱立信MS C _ S e r v e rD A T A O U T P U T , A P C O MMO N D E S T I N A T I O N H A N D L I N G , D E S T I N A T I O N F A U L TA 34 级告警0 0 1 - 0 0 3 - 0 0 -8 0 0 0 7 0A P 指令与数据处理系统以及远程系统的连接断开设备告警表1 告警标准化多维模型——告警定义标准化(示例)网管告警I D告警逻辑分类告警逻辑子类该事件对设备的影响该事件对业务的影响0 0 1 - 0 0 3 - 0 0 - 8 0 0 0 8 8处理器模块区域处理器故障无影响无影响0 0 1 - 0 0 3 - 0 0 - 8 0 0 0 7 0输入输出外部设备I / O 设备告警无影响无影响表2 告警标准化多维模型——告警定位标准化(示例)⑶告警解析标准化使用对象为运行维护团队、网管支撑团队。

      在研究的过程中发现,由于不同的通信网络设备信息存在差异,在网管支撑系统里无法对信息进行正确的捕捉和分解,需要找到设备告警的特点进行关联告警解析标准化模型将解决上述问题,通过设计多维解析表,结合不同设备的特性进行关键字匹配,实现对通信设备告警的定位定位后,通过网管告警ID实现对告警定义信息和告警定位信息的关联告警解析标准化的维度主要为:设备类型、告警对象类型、告警解释辅助字段、设备版本等⑷告警关联标准化使用对象为运行维护团队、网管支撑团队告警关联标准化是上述3类标准化的深化产物,即必须在满足和实现上述3个标准化的基础上,建立告警关联的模型比配,以期高效处理性40 TelecommunicaTions Technology/2009· 质相同的重定义告警对于具有大型网络的运营商来说,告警关联标准化将大大提高专业内、跨专业的告警处理效率,但由于告警关联发生的情况比较复杂,对网管系统的要求较高,不符合时间域、不满足一定频次的发生条件,就算有关联组,对网管支撑系统来说也很难有准确的判断另外,从运维的角度找到关联组是比较容易的,而通过网管支撑系统来准确定位告警形成关联组,也需要有量化的模型才能实现有效的关联。

      因此告警关联标准化模型非常重要,主要思路如下• 关联描述信息:以告警定义标准化的输出成果作为关联基础,以网管告警ID作为关键索引,找到性质相同的告警群,形成关联组• 关联触发规则:以告警关联组作为基础,综合考虑时间域、发生频次的量值匹配,建立时间维度和频次维度的触发条件,一旦满足该条件,则由网管系统自动对这些告警形成关联组• 资源关联方式:以告警关联组为基础,考虑各关联对象间的核心要素,确保有效关联例如,以告警正文字节或资源方式作为关联要素等)⑸ 质量评估和对标体系针对运维管理团队,设计了初步的评估和对标体系评估和对标体系的对象为全国各省份通过一定指标的设定和统计,可以实现对同类省份告警量、故障派单能力、监控人员数量的评估和对标,便于各省明晰自己所处的位置,促进各省能力的提高由于建立在告警标准化的基础之上进行设计,评估和对标相对合理和公平,能更加准确判断不同区域、不同设备的运行状况以及运维人员的工作标准和工作量对比等综上,告警定义标准化、告警定位标准化汇集了运维管理团队的经验,总结出了我们在告警分析过程中的有效信息,为集中监控标准化、精细化实施奠定了基础告警解析标准化、告警关联标准化将复杂信息简单化,为网管支撑团队提供了量化的、可执行的模型。

      3 . 2 建立精细化的故障派单要求⑴故障分级处理要求告警标准化运维模型为我们提供了告警的标准和组合规律实际生产过程中,告警产生后将演变为故障的处理过程如果只对告警本身进行标准的管理,而不考虑后期告警处理过程的精细化要求,对于集中监控工作来说,故障处理的效率仍旧无法快速提高结合告警标准化管理思路,我们提出根据不同的告警级别映射对应的响应级别,确保告警“不遗落、重点突出、有序处理”,如图1所示⑵ 故障处理环节精细化要求在告警定义和定位标准化的基础上,以“知识共享”为目标,制定和细化故障预处理手册,快速提高监控人员对故障的认识,进一步提高故障自处理率同时建立专门的遗留问题库,对于重点问题进行专题分析,查出存在的隐患并进行现网优化,实现告警标准化的闭环管理3 . 3 制定较长远的网管规范和智能化支撑手段要求网管系统的有效支撑,是告警标准化管理能够推广和落地的有效保障,也是长期持续改进的基础网络规范的设计和制定需要考虑以下两方面的因素⑴网管支撑提前介入运维建模阶段网管支撑团队提前介入运维建模阶段,意味着网管支撑团队直接面向客户及业务理解运维管理的需要,能更好地抓住重点,明确网管支撑手段的思路。

      在此基础上,我们在制定网管规范的过程中强调标准化接口设计;后期实施阶段要求网管系统开发出标准化版本,便于后期统一扩展功能,也降低了现网实施风险⑵多种智能化手段齐头并进在生产维护中,告警标准化管理涵盖了从告警发生到告警消除的全过程从运行维护的角度,在制定标准化的告警模型和标准化、精细化的故障派单要求的基础上,需要通过各种智能化手段逐一明确上述管理要求主要为:• 告警惟一性、准确性的智能判断和呈现;图1 网管告警与故障处理级别映射关系 4132 TelecommunicaTions Technology / 2009·4特别策划全业务下的运营支撑• 告警产生到故障派单过程中的智能判断,包括告警自动派单、关联合并工单、智能解闭、自动销单、过程监控、抑止派单、工单状态通知等;• 设计与之相适应的故障处理工单和KPI统计需求;• 固化告警标准化管理思路中的经验,将其转化为知识管理的有效支撑4 告警标准化管理的应用评 价和实际效果告警标准化管理项目的实施,提升了通信企业自身的运营价值,主要体现在以下方面⑴告警标准化的实施,解决了网络运维工作中随意性带来的效率不高、质量不稳定等问题,运营能力得到显著提升,运维人员效率提高。

      在试点省份中,监控值班人员数量减少1/3,监控错派漏派误单率由17%下降到3%,故障平均处理时长由23.4 h缩短到13.6 h,处理历时缩短42%,重大故障及时响应率达到100%⑵逐步脱离对设备厂商的依赖,抛弃了原有靠设备厂商的指导进行告警处理的思路,综合考虑作为运营商关注的网络特性,共享和复用全网的最佳实践经验,全网整体的效能提高⑶告警标准化始终贯彻“全程全网”、“长远规划”的概念,无论是模型的设计还是支撑手段的建设,都从全专业、综合监控的方向进行考虑,避免了推倒重来的风险,有效保护了“软性投资”⑷告警标准化的实施过程,始终坚持集中化模式下“规模效应”的复用,减少了支撑系统的建设成本,促进了OSS产业链的成熟⑸科学的评估和对标体系,促进了运维管理能力和水平的进一步提高告警标准化是一项需要长期开展的系统性工程,在现有取得一定成果的基础上,还需要不断探索和改进管理思路,深入挖掘提高通信企业核心竞争力的关键因素,进一步提高企业的运营能力如对本文内容。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.