
网络设备巡检服务工作规范标准.doc
29页.XX信息中心网络设备巡检服务工作规(H3C设备网络)V1.0信息中心目录1概述52巡检工作流程52.1巡检前期准备62.2数据采集阶段72.3数据分析和报告生成阶段72.4汇报和满意度调查阶段73网络巡检数据采集方法73.1手工数据采集方法83.2网络管理平台数据收集方法83.3巡检工具数据采集方法84网络巡检服务基准数据库的建立85网络巡检工作容95.1巡检工作的主要容95.2网络巡检工作技术涵盖106网络系统巡检基本判断标准107设备相关信息收集127.1软件版本与硬件信息分析127.1.1当前设备硬件信息137.1.2当前设备运行软件信息147.2设备板卡硬件配置信息分析147.3设备运行状况检查157.3.1设备CPU工作状态检查167.3.2设备CPU利用率分析167.3.3设备MEMORY使用状态检查177.3.4设备MEMORY利用率分析表187.4设备运行状态检查187.4.1电源的工作状态187.4.2风扇的工作状态197.4.3设备工作温度198端口的可用性、准确性检查198.1端口状态检查198.1.1基本网络接口状态分析228.1.2接口半/全双工模式和链路类型238.1.3接口稳定性统计信息238.2端口状态检查表239设备端口负载与流量检查249.1设备缓存信息检查2410 网络架构、配置信息分析2410.1网络结构检查2410.1.1检查容2410.1.2检查方式2410.2网络配置信息检查2710.2.1检查容2710.2.2检查方式2711LOG信息检查3011.1标准的LOG格式3011.2LOG日志等级3011.3日志信息分析表30关于文档为保障XX信息中心网络的平稳运行,将在每月进行网络巡检,并根据巡检结果给出相应的网络系统改进和优化建议。
本文档面向XX的技术人员和外部支持公司网络工程师,通过参考本文档,共同完成对XX信息中心网络运行状况的检查与分析通过本文档使XX技术人员和外部支持公司网络工程师充公了解XX信息中心对网络巡检的基本要求,以该规为参考,使得网络系统巡检工作更加标准化、规化由于网络技术的不断发展和设备的更新换代,本规需要逐步地更新、完善,增加网络设备硬件、软件、固件的新版本和新硬件的容同时,随着网络健康服务的不断深入,对网络系统检查的深度和围也将发生变化,本规也会逐步地完善文档适用对象本文档仅适用参与XX网络项目相关技术人员和外部支持公司的网络工程师1 概述为确保XX信息中心网络安全生产,提升网络服务质量,确保设备的正常运行,将每月对XX信息中心网络设备进行巡检,巡检围根据巡检工作需要而确定,通过对网络设备的数据采集和分析,能够对XX信息中心网络设备的状态具有更加深入地了解网络巡检是指通过标准的方法和流程定期地对客户一定围的网络进行网元级的系统检查,容包括现场数据采集、分析、客户报告生成等通过对关键网元设备的关键检查点参数进行数据采集、并将采集到的数据与有关标准进行比较,从而确定关键网元设备所处的运行状态通过定期网络巡检,可以与时发现网络中可能存在的隐患,并消灭在萌芽状态。
2 巡检工作流程 网络巡检工作分为前期准备、现场数据采集、数据分析、报告生成和汇报、满意度调查和问题整改追踪等五个阶段 服务流程如下:2.1巡检前期准备在网络巡检的前期准备阶段,工程师需要在与客户进行充分沟通的情况下,确定要巡检的设备围与巡检重点,形成《网络巡检方案书》网络巡检书至少包括:l 巡检设备围和巡检工作重点l 巡检各个工作环节的方式l 数据采集的命令集l 协商具体的巡检时间安排l 巡检报告输出样表和图形在得到客户认可的情况下,进入下一阶段的工作2.2数据采集阶段在网络巡检的数据采集阶段,对于网络数据采集的手段和工具需要得到用户的授权,遵守用户运行管理的相关规定,在指定时间和网络设备围进行数据采集工作在用户的协助下收集相关网元的技术数据,并记录输出结果2.3数据分析和报告生成阶段巡检工程师对现场采集到的数据进行分析,形成《XX信息中心XX中心网络巡检报告》经过南天公司的网络专家审核通过后,由工程师负责以纸质文档或电子文档的方式提交给客户2.4汇报和满意度调查阶段通过定期交流的方式,讨论巡检工作中发现的问题与隐患,给出网络运行状况的检查、评估与建议,并进行问题跟踪同时进行客户满意度调查,以便发现和纠正工作中的问题,改进网络系统巡检工作。
3 网络巡检数据采集方法网络巡检服务的数据采集方法有两种,一是手工命令采集,并配合网管平台进行辅助性数据采集的方法;一是巡检工具数据采集的方法3.1手工数据采集方法手工采集就是登录到网络设备上,通过手工输入命令并记录输出结果的方式进行数据采集为加强手工数据采集的准确性和合理性,需要对数据进行多次,重复性数据收集如考量CPU的利用率和MEM的利用率等信息,可以采用日起、日中、日结等三个阶段,分时段收集并进行汇总比对于网络设备运行状态、数据流量等信息的趋势性数据采集需要结合一定时间段数据的采集工作,需要利用网络管理系统进行相关数据的采集工作3.2网络管理平台数据收集方法通过网络管理系统收集相关的数据,可以进行一个阶段的趋势分析,以便更加准确地了解网络系统的整体运行情况,并可以与手工数据采集的结果进行对比,确保数据采集和分析的合理性和可靠性3.3巡检工具数据采集方法通过H3C提供的专用巡检工具进行数据采集该工具集合了常用的设备状态检查的命令,可以自动化收集输出结果,并在后期导出巡检报告但是需要H3C提供软件与其授权在没巡检工具软件的情况下,可以由第一巡检方法来替代4网络巡检服务基准数据库的建立由于网络系统的巡检服务是一个长期的、持续性的工作,首先需要对网络系统具有一定的了解,建立一个基本信息库。
主要包括:Ø 设备清单:设备名称、IP地址、位置、功用、序列号等Ø 设备模块硬件配置:模块种类、型号等Ø 设备软件版本Ø 设备使用、维修记录Ø 设备性能基准,包括CPU、Memory利用率、设备端口流量的初始数据等Ø 设备端口信息:相关计数器初始状态通过第一次巡检完成基本信息库的建立,作为以后巡检工作的数据对比性分析的基础和依据,并保持数据更新,动态调整基本信息库的参考点5网络巡检工作容5.1巡检工作的主要容本项目中,网络巡检工作中涉与的相关容如下:1) 设备基本信息收集采集设备的基本信息,包括用户定义的设备名称、设备序列号、设备型号、运行的软件版本、存大小、CF卡的大小等2) 设备运行状态检查主要采集和分析网络设备的CPU、Memory利用率,并在可能是的情况下,观察其变化趋势3) 设备管理运行环境检查主要通过设备的相关命令收集网络设备的运行环境,主要包括机框部各个检测点的温度与其变化,电源工作状态和工作输出电压等相关信息4) 场地环境检查检查设备的运行环境,如机房温度、湿度、设备供电、网络线缆走线等5) 网络设备硬件检查检查设备状态、设备连线状态等6) 网络设备日志检查使用display命令,收集设备运行日志,并做分析7) 核心设备的端口可用性、准确性检查使用display命令查看设备各端口的工作情况,包括端口的输出、输入错误丢包信息等,buffer占用情况和缓冲器溢出现象等8) 核心设备端口负载与流量检查通过网管与其他手段,对设备端口的带宽占用、负载和流量进行统计分析,便于掌握网络设备与其连接线路的情况。
9) 网络系统总体性能评估针对巡检的容与分析结果,对网络运行的整体情况做评估5.2网络巡检工作技术涵盖网络系统巡检工作主要涵盖以下技术容:项目分类参数数据来源设备基本信息软件Comware Version命令采集Bootstrap Version命令采集启动与运行Boot-loader命令采集uptime命令采集硬件Device命令采集Flash命令采集NVRAM命令采集Total Memory命令采集SDRAM命令采集设备运行环境环境温度命令采集电源命令采集风扇命令采集性能CPU利用率Peak Util命令采集AvgUtil命令采集在利用率Peak Used Memory命令采集Avg Used Memory命令采集线路稳定性网络端口In DropsOut Drops命令采集网络事件LOG6网络系统巡检基本判断标准我们将依照依据华三公司的技术指标和业界遵循的阈值、惯例和相关技术标准,将采集的数据结果与其对照分析,以判断当前网络运转情况是否良好,根据具体发现的问题提出合理改进意见1) 设备运行记录设备运行时间少于7天的(即运行时间过短的设备)需要关注,有可能发生意外重启,同样对于设备启动时间过长的设备建议维护性重启。
2) 设备报警温度3) 电源风扇状态电源正常标准Normal(指示灯为绿色)非正常标准Fail(指示灯为红色)风扇正常标准Normal(指示灯为绿色)非正常标准Fail(指示灯为红色)4) CPU存状态电源(重点关注后两列)H3C建议值巡检建议值变化值关注65%
