5.9交换机故障
交换机故障一般可分为硬件故障和软件故障两大类。硬件故障主要指交换机电源、背板模块、插板、端口等具体物理部件的故障;软件故障主要是指由于交换机系统映像损坏或配置错误而导致的故障。
1.电源故障
与其他所有电子设备一样,交换机也需要有正常的电源才能工作。为了避免电源故障导致的网络传输中断,许多交换机都提供了冗余电源,保证其中一个电源模块发生故障后,另一个电源模块仍然能够保证交换机正常运行。同时,电源模块通常都支持热插拔,也就是说,可以在交换机工作时更换电源模块。交换机、集线器面板都提供有Power(或System)LED灯,可以借此迅速判断交换机的供电是否正常。交换机电源发生故障时,具体表现为Power(或System)LED灯熄灭,或者呈琥珀色。此时:
(1)连接至该交换机的所有计算机都无法连接至网络。
(2)所有端口的LED指示灯熄灭。
(3)连接至该交换机的所有计算机的本地网络连接都提示无法连接的错误。
(4)交换机不能被本地或远程管理、登录。
该故障与向上级联端口故障有明显的不同。如果仅仅是向上级联的端口发生故障,那么,计算机的本地连接应当没有问题,只是无法与其他交换机上的计算机通信而已。另外,该故障与背板故障的区别在于,背板故障的电源LED指示灯通常是正常的。
2.端口故障
端口故障是最为常见的交换机故障之一。作为计算机与网络,或者交换机与其他设备连接的接口,端口故障影响的往往只是一台计算机(当端口直接连接至计算机时),或者连接至该交换机上的计算机(当向上级联端口发生故障时)。交换机端口发生故障时,其具体表现为以下几点:
(1)故障端口的LED指示灯熄灭或呈琥珀色。
(2)只有连接在该端口的计算机无法连接至网络,连接至该交换机的其他端口的计算机不受影响。
(3)所有端口都被指定为一个VLAN时,连接至同一交换机的计算机之间可以通信,然而,无法与连接至其他交换机上的计算机通信,这表明向上级联的端口可能发生故障。
交换机的每个端口都有一个LED指示灯,用于显示该端口的工作状态。无论该端口所连接的设备处于关机状态,还是链路的连通性有问题,相应端口的LED指示灯都会有不同的显示。不过,只有该端口所连接的设备处于开机状态,并且链路连通性完好的情况下,指示灯才会被点亮。
3.接口故障
接口与端口的区别在于,接口往往是逻辑意义上的,而端口则是物理意义上的。对于三层交换机和路由器而言,一个物理端口往往可以划分为若干个逻辑接口,每个逻辑接口都可以单独进行配置和管理。当然,逻辑接口依附于物理端口,物理端口一旦发生故障,逻辑接口也将产生连通性问题。交换机接口发生故障时,其具体表现为以下几点:
(1)故障端口的LED指示灯呈琥珀色或红色。
(2)只有连接在该接口的计算机或交换机无法连接至网络,连接至其他接口的计算机或网络设备不受影响。
(3)网络物理链路测试连通性完好。
(4)采用替换法测试时,GBIC/SFP模块能够正常工作。
使用Show Interface ID命令,可以准确地判断交换机各端口的工作状态。
默认情况下,如果交换机发现某个端口或接口确定有错误发生时,将关闭相应的端口或接口。此时,该端口或接口的状态显示为err-disable。err-disable的直接结果就是端口或接口被关闭(Shut Down)。导致端口或接口进入err-disable状态的原因主要包括:
(1)交换机环路。
(2)单向链路检测(Unidirectional Link Detection,UDLD)限制。
(3)网桥协议数据单元(Bridge Protocol Data Unit,BPDU)保护阻塞。
(4)端口安全阻塞。
(5)端口汇聚(Port Channel)不匹配。
(6)双工模式不匹配。
(7)端口聚合协议(Port Aggregation Protocol,PAgP)抖动。
(8)延迟冲突(Late-Collision)。
(9)链路拉动(Link-Flap)。
(10)二层隧道技术(Layer Two Tunneling Protocol,L2TP)保护。
(11)DHCP侦测速率限制。
(12)GBIC/SFP模块或线缆错误。
(13)在线电源错误。
除第一个交换机环路外,其他几乎全部都是在网络配置时考虑不周而导致的配置问题所致。使用show errdisable detect命令,可以查看启用了哪些导致端口或接口err-disable的触发事件。在实际过程中,端口处于err-disable状态,一般也都是由于用户误操作将同一台交换机上的两个端口用一根双绞线连接起来导致交换机环路,交换机上的端口环路监测检测到端口环路后,为了防止网络通道被堵塞会自动将环路端口进行err-disable处理。
导致端口或接口处于inactive状态的常见原因,是其所属的VLAN消失不见(如被误删除),特别是使用switchport命令将接口配置为二层交换端口。二层交换机中的所有端口都必须属于某个VLAN。三层交换机上的所有端口在配置为二层端口时,也必须同属某个VLAN。如果某个端口或接口所属的VLAN被删除,那么,端口或接口的状态将改变为inactive。当端口或接口改变为inactive状态时,一些交换机的LED指示灯会显示固定的橙色(琥珀色)。
一般情况下,不会是大量的端口同时发生故障,这样在排除该类故障时,就简单得多。需要做的就是将连接在故障端口的网线更换到其他端口上,以确认端口是否真的损坏。如果确认是交换机端口发生的故障,则可以通过对端口进行清洗、更换等操作来进一步解决故障。
4.GBIC/SFP故障
固定端口交换机往往提供GBIC或SFP插槽,而模块化交换机的业务板更是提供了大量类似的插槽,以适应复杂的网络环境,降低购置成本。因此,交换机之间的互联,以及交换机与服务器或与其他设备之间的互联,都不可避免地要使用GBIC或SFP模块。由于GBIC或SFP模块常常用于级联端口,因此其故障表现大多如下:
(1)故障端口的LED指示灯熄灭或呈琥珀色。
(2)对于二层交换机而言,只有VLAN内的计算机之间可以通信,无法建立与其他VLAN交换机的连接,表明向上级联的端口可能发生故障。
(3)连接至该交换机的所有计算机都无法实现与其他交换机的通信。
判断模块是否损坏,常常采用替换法。通过以下步骤,可以诊断模块故障:
(1)将怀疑有故障的模块插入另外一个正常插槽进行测试,如果连接正常,则排除模块损坏的可能。
(2)将使用正常的模块插入怀疑有故障的插槽进行测试,如果连接失败,则表明插槽损坏而非模块损坏
但是,有时候将GBIC或SFP模块插入插槽后,即使LED指示灯变为绿色,也不能证明该模块就能正常工作。因此,仅仅依靠LED指示灯来判断模块和插槽是否损坏是不全面的。
5.系统故障
交换机的软件系统与Windows、Linux系统一样,因为设计的原因,可能会存在一定的漏洞,这也给一些黑客提供了可乘之机,他们会利用这些漏洞进行一些攻击。交换机软件本身存在的这些漏洞,还可能会影响交换机的运转能力。例如,交换机在工作中所发生的丢包、过载等情况。
系统故障现象大致如下:
(1)瞬间流量较大或并发访问量较大时,系统不能及时响应,CPU和内存占用率大幅飙升,大量丢弃数据包,甚至导致系统瘫痪。
(2)在拓扑结构和配置文件没有修改的前提下,网络传输速率大幅下降。
(3)系统无规律地瘫痪、死锁。
(4)因系统漏洞导致黑客拒绝服务攻击,网络陷于瘫痪,或者重新启动系统,或者无法远程登录。
借助以下步骤,可以诊断和解决系统故障:
(1)端口LED指示灯正常,网络链路畅通,网络内没有发现明显的滥用,但网络传输速率急剧下降,甚至瘫痪。
(2)系统重新启动时间不长,故障又重复出现。
(3)使用show version命令查看系统版本。登录网络设备官方网站,查看该版本是否存在系统漏洞。
(4)下载并使用TFTP服务器升级系统软件后,故障被排除。
6.配置错误
交换机的配置正确与否将会直接影响网络是否能正常运行。由于交换机配置错误而导致的网络故障并不少见,例如,交换机VLAN划分不正确、端口被错误地关闭、交换机和网卡的工作模式不同等。与其他交换机故障所不同的是,错误的配置更具有隐蔽性,所以在配置交换机之前应首先对其所处的网络进行规划,并做好必要的网络拓扑结构、交换机的配置情况等信息的备份工作,以方便日后的维护和故障排除工作。交换机配置故障通常表现为以下现象:
(1)网络故障在配置修改后立即发生,在时间上非常一致。
(2)部分或全部网络在修改配置后网络瘫痪,或者网络应用受到影响。故障发生的范围与配置文件修改所涉及的内容相吻合。
借助以下步骤,可以诊断交换机配置故障:
(1)修改配置后,网络应用和传输即发生故障。恢复原来的配置后,网络应用和传输即恢复正常。
(2)清除配置后,作为傻瓜交换机使用时,测试各端口之间的通信正常。
(3)全面检查交换机配置文件,包括发生故障的端口配置、受影响的VLAN配置,以及影响部分或全部网络的IP访问列表配置等。
除交换机本身的原因外,黑客的恶意攻击、蠕虫病毒的蔓延、网卡的物理损坏、拓扑的结构错误等,都会导致网络瘫痪或网络传输速率下降。这些现象虽然不是交换机本身硬件或软件的故障,却与交换机的系统和安全配置密切相关。因此,这些现象也被纳入交换机故障范畴。