
某公司网络延时严重的故障解决分析报告.pdf
7页某公司 网络 延时严重的 故障 解决 分析报告 CSNA 网络分析 认证培训 © 2001-2014 科来版权所有 科来官网 一、 前言 现在的网络要比以前复杂许多,在各行各业中,不断的有新的网络应用加入,这对网络性能要求是非常高的网络性能评估对网络关键应用能否健康运 行有重要意义,通过对网络核心设备的处理能力分析,对网络带宽利用率、网络负载的分析,有助于提高网络整体性能和资源的合理分配,为规划、调整网络提供可靠依据 科来网络分析系统是非常好的流量分析系统,利用他我们可以实际了解当前网络正在发生的具体流量,并且通过科来网络分析系统的专家系统及进一步对数据包的解码分析,我们可以很快的定位网络故障,确认网络带宽的瓶颈,在故障发生前消除网络隐患,这样能给我们日常的网络维护工作带来很大的方便,也是的我们的维护工作处于主动地位,不会再只用接到用户故障投诉后处理故障,这在时间和效率 上都有了很大提高 二、 故障描述 2011 年 7 月 8 日,某公司网络管理人员通过网管软件发现两台核心网络交换机 CPU 利用率异常,如下: 1. “核心交换机 6509_A”的 CPU 利用率高达 90%以上。
2. “核心交换机 6509_B”的 CPU 利用率高达 90%以上 以上问题造成网络延时很高,导致访问内网应用、互联网等速度较慢 1、 网络拓扑 拓扑图如下: 2、 检测描述 监测软件:科来网络回溯分析系统 3.1 样本文件: Colasoft.pkt 采样时间: 2011-7-8 21:30 采样时长: 7*24 样本说明:核心交换机 6509 连接部门交换机 3550 的 trunk 链路 科来官网 三、 分析内容 1、 基本分析 首先,我们需要检查是什么进程导致设备 CPU 利用率较高,以提高分析效率我们分别在两台( A、 B) Cisco 6509 交换机上执行 show process cpu 命令,查看各进程 CPU 占用情况,如下: ==========6509_A============ ==========6509_B============ 从上图可以看出两台设备占用 CPU 利用率最高的进程为 ARP 进程,统计结果如下: 科来官网 设备名称 6509_A 6509_B ARP 进程占 CPU 利用率( %) 58.6 58.4 因此,我们推断设备 CPU 利用率较高是由 ARP 流量异常导致的,对于分析 ARP 流量异常,我们需要借助专业的流量分析工具科来网络回溯分析系统 3.1。
详细分析 由于用户先前已经部署了科来网络回溯分析系统,并且部署监控点包括核心交换机连接各部门交换机 3550的端口,因此可以监控到所有 Vlan 的流量 由于在基本分析的时候我们判断故障原因为 ARP 流量异常造成,因此,我们选择最近时 间段的全部流量 下载分析即可下载完成之后,我们定位 ARP 流量进行详细分析,如下图: 在图中,我们可以看到 ARP Request 包的数量远远高于 ARP Respone 包的数量,并且这些 ARP Request包大部分是由 Mac54:E6:FC:18:98:9D 发出来的,现在我们可以直接分析 Mac:54:E6:FC:18:98:9D 所发出的数据包如下图: 科来官网 上图显示, Mac 为 54:E6:FC:18:98:9D 的设备发送的数据包为免费 ARP 请求数据包,并且发送频率较高(正常情况下,设备不会发送大量发送免费 ARP 请求)这种数据包发送到网络当中会导致拥有相同 IP 的主机不停地产生地址冲突提 示 由于已经找到 ARP 报文中含有的 IP 地址,我们通过 IP 登记记录找到该 IP10.168.22.215 为一台 IBM 服务器( Server 2003),我们登陆该服务器查看网卡 Mac 为 00:09:6B:A5:19:C4,并且系统不停地提示 IP 地址冲突。
我们将该服务器网卡禁用之后,核心交换机设备利用率立即回复正常,并且 ARP 流量也回复正常(通过这个现象可以判断非恶意破坏) 至此,我们确定 ARP 流量异常原因为某台设备配置 IP 地址与一台 IBM 服务器地址冲突,而此设备在 IP 冲突的时候为了抢占该 IP 地址,大量发送免费 ARP 请求,造成网络产生了 ARP 广播风暴,最终导致核心设备 CPU利用率升高 2、 故障点定位 由于公司网络全部采用的可管理的交换机,因此根据发送 ARP Request 的源 Mac 地址 54:E6:FC:18:98:9D,我们找到该设备具体接在那个交换机端口通过在核心交换机执行 show mac-address-table | include 54:E6:FC:18:98:9D 找到该 Mac 在某部门的 3550 交换机上,登陆该交换机我们再次执行该命令,最终找到该Mac 所接交换机端口,如下图: 科来官网 从上图可以看到 Mac 地 址在该部门交换机的 F0/25 端口上,并且该端口属于 Vlan112 查阅布线图,我们最终找到了该端口所接设备的具体房间并且找到了 Mac 为 54:E6:FC:18:98:9D 的设备为一台 Tplink 无线路由器,并且其配置了 IP 地址为 10.168.22.215,如下图: 3、 处理方法 通过科来网络回溯分析系统 3.1,我们快速定位到触发核心交换机 CPU 利用率非常高的原因为某部门擅自使用了一台 Tplink 无线路器,并且该路由器 “ Wlan 口 ” 设置的 IP 与同网段的一台 IBM 服务器地址冲突,导致 Tplink无线路由器快速发送免费 ARP 请求(防护机制),最终到导致核心交换机 CPU 利用率升高。
根据以上分析结果,该部门已停用该 Tplink 无线路由器,重新申请了公司购买的企业级无线路由器,同时申请了新的 IP 地址 处理结果 在停用 Tplink 无线路由之后,网络已经恢复正常,核心交换机 CPU 利用率已经恢复正常,网络延时也恢复到局域网延时水平 四、 分析总结 1、 分析结果 本次通过科来网络回溯分析系统 3.1,我们快速定位本次故障原因为一台非授权 Tplink 无线路由 器非法接入网络引起针对分析结果我们及时采取了处理措施,最终将问题解决 科来官网 2、 网络优化建议 针对本次故障,我们看到某些网络设备不适合企业用户使用,同时企业需要采取更为严格网络管理措施防范此类故障的再次发生 网络中部署准入控制,加强网络设备接入的管理 建议用户使用企业级无线路由器或者交换机,以保障企业网络的稳定运行 。
