
交换机网络环路识别和问题定位课件.ppt
21页交换机网络环路识别和问题定位•诊断工具诊断工具–display工具•如何快速识别环路如何快速识别环路–定位思路–第一步:通过端口流量发现环路风暴–第二步:通过持续MAC漂移判断环路–第三步:通过大量的CPCAR丢包判断环路–第四步:通过LDT功能检测环路•如何快速恢复环路如何快速恢复环路–如何快速破环–如何分析环路的成因–典型环路场景–破环后网络优化目录目录loop-detect eth-loop alarm-only[Quidway-vlan100]loop-detect eth-loop alarm-only ?
MAC漂移检测命令 用于检测设备上MAC地址漂移信息框式设备默认全局开启,盒式设备默认未能使,需要在VLAN视图下使能loop-detect eth-loop alarm-onlyL2IFPPI/4/MFLPVLANALARM:OID 1.3.6.1.4.1.2011.5.25.160.3.7 Loop exists in vlan 1001, for flapping mac-address 0025-9e6e-1c55 between port GE2/1/23 and port GE2/1/22.L2IFPPI/4/MAC_FLAPPING_ALARM:OID 1.3.6.1.4.1.2011.5.25.42.2.1.7.12The mac-address has flap value. (L2IfPort=0,entPhysicalIndex=0, BaseTrapSeverity=4, BaseTrapProbableCause=549, BaseTrapEventType=1, MacAdd=0025-9e6e-1c55,vlanid=1001, FormerIfDescName=GigabitEthernet2/1/23,CurrentIfDescName=GigabitEthernet2/1/22,DeviceName=9303-222.157)框式设备的告警信息如下:盒式设备的告警信息如下:display interface brief | include up[Quidway]display interface brief | in up PHY: Physical*down: administratively down(l): loopback(b): BFD downInUti/OutUti: input utility/output utilityInterface PHY Auto-Neg Duplex Bandwidth InUti OutUti TrunkGigabitEthernet0/0/2 up enable full 100M 0% 0.01% --GigabitEthernet0/0/16 up enable full 1000M 76% 76% 1GigabitEthernet1/0/12 up enable full 1000M 76% 76% 1MEth0/0/1 up enable half 100M 0.01% 0.01% --对于流量出入都异常大的端口,需要特别关注,可能都是网络异常环路上的端口。
display cpu-defend statistics [Quidway]disp cpu-defend arp-request statistics slot 3 CPCAR on slot 3-------------------------------------------------------------------------------Packet Type Pass(Bytes) Drop(Bytes) Pass(Packets) Drop(Packets)arp-request 91720644 61001339156 1348833 897078517-------------------------------------------------------------------------------
•诊断命令行诊断命令行–display工具•如何快速识别环路如何快速识别环路–定位思路–第一步:通过端口流量发现环路风暴–第二步:通过持续MAC漂移判断环路–第三步:通过大量的CPCAR丢包判断环路–第四步:通过LDT功能检测环路•如何快速恢复环路如何快速恢复环路–如何快速破环–如何分析环路的成因–典型环路场景–破环后网络优化目录目录如何快速识别环路第一步:通过流量异常发现环路风暴1. 如果只有一台设备的一个端口出入方向流量较大,可能是单端口环回2. 如果只有一台设备的两个端口流量较大,可能是本设备两个端口环回,如上所示3. 如果某端口只有单方向流量,需要重点排查,该端口下设备可能存在环路[Quidway]disp interface Ethernet brief | in up PHY: Physical*down: administratively down(l): loopback(b): BFD downInUti/OutUti: input utility/output utilityInterface PHY Auto-Neg Duplex Bandwidth InUti OutUti TrunkGigabitEthernet0/0/2 up enable full 100M 0% 0.01% --GigabitEthernet0/0/16 up enable full 1000M 76% 76% 1GigabitEthernet1/0/12 up enable full 1000M 76% 76% 1… … 第一步:通过流量异常发现环路风暴还可以通过CPCAR丢包来发现网络异常环路。
通常情况下,ARP报文的交互是有序进行,短时间内不会出现大量ARP报文的丢弃当交换机作为汇聚网关时,出现上述情况后,可能是ARP广播报文在网络物理环路中转发,形成ARP广播风暴冲击交换机,进而被交换机CPU限速(CPCAR)丢弃如下所示,arp-request大量丢弃,可能存在网路环路:
任何二层环路都会伴随着持续MAC地址漂移如下所示,如果设备一直打印该告警,GE2/1/23和GE2/1/22端口之间可能存在环路L2IFPPI/4/MAC_FLAPPING_ALARM:OID 1.3.6.1.4.1.2011.5.25.42.2.1.7.12The mac-address has flap value. (L2IfPort=0,entPhysicalIndex=0, BaseTrapSeverity=4,BaseTrapProbableCause=549, BaseTrapEventType=1, MacAdd=0025-9e6e-1c55,vlanid=1001, FormerIfDescName=GigabitEthernet2/1/23,CurrentIfDescName=GigabitEthernet2/1/22,DeviceName=9303-222.157)MAC-Flapping示意图第三步:通过LDT发现环路对于单端口网络环路,还可以通过LDT(loop-detection)进行发现[Quidway]loop-detection enable[Quidway]loop-detection enable vlan 100 [Quidway]display loop-detectionLoop Detection is enabled.Detection interval time is 5 seconds.Following vlans enable loop-detection: vlan 100Following ports are blocked for loop:… … 使能某个VLAN下所有接口的环路检测功能查询该VLAN下是否有接口存在环路成环的端口会在此显示出来注:注:LDT可以发现单端口环回,并默认将该端口做DOWN处理,具体配置可参考用户手册。
•查询命令行查询命令行–display工具•如何快速识别环路如何快速识别环路–定位思路–第一步:通过端口流量发现环路风暴–第二步:通过持续MAC漂移判断环路–第三步:通过大量的CPCAR丢包判断环路–第四步:通过LDT功能检测环路•如何快速恢复环路如何快速恢复环路–如何快速破环–如何分析环路的成因–典型环路场景–破环后网络优化目录目录如何快速破环以太网的环路,会在短时间内形成数据风暴,对业务质量有严重影响在确认网络发生异常环路后,可以通过如下方式快速破环恢复业务1 端口退出成环VLAN破环2 shutdown成环端口破环3 直接拔出成环光纤破环如何分析环路的成因网路环路一般都很网络变动相关,需要先从近期的网络变动排查起1. 是否由于近期施工或者客户操作操作引入环路 如果环路问题是由于近期施工操作引入,可以和施工方确认,了解施工的过程,特别是新增线路连接的细节,结合拓扑结构,确认后排出物理环路2. 是否由于近期修改配置引入的环路,重点检查如下几类端口或环路相关的操作命令:特性特性命令行命令行成环原因成环原因应对方案应对方案接口管理接口管理undo shutdown端口进入转发引入环路。
端口进入转发引入环路关闭端口或者部署破关闭端口或者部署破环协议环协议STPbpdu enable盒式交换机端口下需要使能盒式交换机端口下需要使能bpdu enable命令才能接收并处命令才能接收并处理理STP报文配置命令(配置命令(V1R6及及以后版本已默认使能)以后版本已默认使能)框式交换机端口下需要去使能该框式交换机端口下需要去使能该命令,交换机才不会透传命令,交换机才不会透传STP报报文删除命令删除命令bpdu bridge enable使能该命令会导致使能该命令会导致STP报文透传,报文透传,无法上送处理无法上送处理删除命令删除命令bpdu-tunnel stp bridge role provider使能该命令会导致使能该命令会导致STP无法处理无法处理报文删除命令删除命令RRPPrrpp enable全局不配置全局不配置rrpp enable,无法,无法计算堵塞端口破环计算堵塞端口破环配置命令配置命令SmartLinksmart-link enableSmartLink组模式下不使能该命组模式下不使能该命令,无法计算堵塞端口令,无法计算堵塞端口配置命令配置命令典型环路场景:本设备自环路前置条件:前置条件:交换机未配置STP和LDT问题现象:问题现象:端口出方向和入方向流量持续增加。
问题原因:问题原因:端口自环或者链路环回处理方法:处理方法:此类环路造成的原因是光纤或者网线误接,需要拆除连线图3:设备自环出现环路典型环路场景:下游设备自环路前置条件:前置条件:设备未部署STP和LDT,本设备未环回问题现象:问题现象:端口入方向和出方向流量持续增大问题原因:问题原因:下游链路环回或者自环处理方法:处理方法:1. 首先逐跳向下游寻找环路链路(可以通过接口异常流量逐端口排查)2. 设备由于链路引入环路有两种:一种是单端口收发环回,另一种是设备上两个端口环路此类环路造成的原因是光纤或者网线误接,需要拆除连线下游设备自环出现环路典型环路场景:网络环路前置条件:前置条件:设备部署STP、RRPP、SEP或者SMLK等破环协议问题现象:问题现象:环路一段时间收敛正常,一段时间收敛失败,或持续震荡问题原因:问题原因:环网协议报文转发失败,反复超时震荡处理方法:处理方法:1. 检查环路各接口错包情况,如果有建议更换问题链路或者光模块2. 检查环路各接口是否有流量抑制配置,如果有建议修改流量抑制配置3. 检查环路各接口网络流量,确认环路各接口是否存在Discard拥塞计数,如果有则建议部署QoS。
图:环路堵塞端口存在振荡典型环路场景:报文转发异常导致环路前置条件:前置条件:二层网络环路收敛正常,堵塞端口状态下发正常问题现象:问题现象:在LSW3形成频繁的MAC-Flapping,出现疑似环路问题问题原因:问题原因:二层网络的边缘设备,由于个别厂家实现差异,对于无法处理的报文,会反弹转发,常见的设备有机顶盒等处理方法:处理方法:由于报文反弹,此类问题需要更换边缘设备解决图:报文转发异常导致环路破环后网络优化1. 1. 部署破环协议部署破环协议如果当前的环路问题是由于物理环路引入,且没有配置破环协议,请按照网络规划合理部署破环协议以太网交换机常见的破环协议为STP/RSTP/MSTP、RRPP、SEP等2. 2. 提升链路质量和可靠性提升链路质量和可靠性如果当前环路问题是由于物理链路质量不可靠,存在协议报文拥塞丢失导致超时临时环路,请检查链路,并更换光纤光模块如果当前问题因为带宽不足导致协议报文被丢弃,需要扩充带宽或者使用聚合链路,提升链路可靠性3. 3. 部署广播抑制提升网络健壮性部署广播抑制提升网络健壮性为了避免再次成环,成环后再次引入广播风暴,建议在环上设备端口下,部署广播抑制,按照经验,部署1%的广播抑制可以很好的防止广播风暴。
4. 4. 部署部署QoSQoS保证协议报文优先转发保证协议报文优先转发5. 5. 优化网络设计,提升网络优化网络设计,提升网络可靠性可靠性复杂组网可以通过分层控制,建议合理规划设计接入层、汇聚层单层组网内设备数量较多时,建议按照逻辑组织和地理分布,划分不同的域。
