5.4网络设备故障诊断顺序

5.4网络设备故障诊断顺序

在排除网络设备故障时,应当遵循应有的规则和策略,只有如此,才能有条不紊地、以最快的速度定位和排除故障。

1.先易后难

排除网络设备故障应当和平时工作一样,先从最简单、最有可能的导致故障的原因开始,逐一进行排除。网络管理员应将导致某种故障的所有原因一一列出,然后再从中挑选出发生概率最大、可能性最高且最易于诊断和排除的原因,并由此入手,这样才能提高故障排查的速度。

例如,当某个端口所连接的计算机发生通信故障时,应当先使用网络管理软件,或者远程登录至该网络设备,查看故障端口的工作状态。或许故障原因就是端口由于某种原因Down掉了。这样,只需将端口重新配置成Enable,即可恢复该端口的连接。

当使用Enable无法解决问题时,再查看网络设备的配置,检查是否有访问列表或其他设置影响到该计算机的访问。

确认配置没有错误后,再检查发生故障的网络设备,将发生故障的跳线连接到其他相同类型和配置的端口,查看故障是否排除。

如果故障仍未排除,再查看用户计算机网卡工作状态是否正常,驱动是否正确安装,IP地址信息设置是否正确。

如果客户端确认无误,再测试故障计算机整体链路(包括水平布线、信息插座至计算机的跳线、配线架至网络设备的跳线)的连通性。

2.先“软”后“硬”

与解决计算机故障类似,在排除网络设备故障时,也采用先“软”后“硬”的原则。所谓“软”,就是指应当先借助网络管理工具软件,远程查看网络设备的各种配置(包括三层路由配置,访问列表配置,端口属性配置,VLAN和VLAN Trunk配置等)、客户端的IP地址信息、端口的工作状态、网络设备的性能(CPU和内存占用情况等)和运行状态,确认是否是由于系统软件和系统配置等“软”因素导致了网络设备故障。然后,再试图用修改系统配置文件、升级系统软件、重新激活端口或VLAN的方式,修复网络设备的“软”故障。所谓“硬”,是指在“软”的手段不能奏效,进而怀疑端口、模块、板卡甚至网络设备本身,以及网络链路发生故障时,以替换相应硬件或链路的方式,修复网络设备的“硬”故障,恢复正常通信。

例如,当某台计算机无法连接到网络时,应当先查看可能导致该故障的“软”的问题,包括:

(1)网络设备端口是否处于Up状态,否则激活该端口。

(2)网络设备端口是否指定到正确的VLAN,否则重新将该端口指定至相应的VLAN。

(3)网络设备端口的传输速率、双工模式设置是否正确。如果是双绞线端口,可以设置为自适应速率;如果是光纤端口,则应当与网卡的传输速率和工作模式相同。

(4)网络设备端口是否配置有基于端口的安全认证和策略。如果设置有安全策略,可以先删除这些策略,然后再进行测试。

(5)网卡是否正常工作。如果处于被禁用状态,应当启用并激活该网络连接。

(6)网卡驱动程序是否正确。如果不正确,试着下载最新版的驱动程序。

(7)网卡的IP地址信息设置是否正确。如果不正确,应当重新设置IP地址信息。

然后,再检查并排除可能导致该故障的“硬”的问题,包括:

(1)将跳线连接至另一个能够正常工作的、同一VLAN的端口,查看网络通信能否恢复正常。

(2)测试整个物理链路是否畅通,然后再逐段测试可能的链路故障,并更换有问题的跳线,重新配置发生故障的模块(或更换模块)和配线架端口。

(3)更换计算机的网卡,重新安装网卡驱动程序和TCP/IP协议,并设置正确的IP地址信息。

3.先边缘后核心

所谓“先边缘后核心”,是指在诊断和隔离网络故障时,应当先从最边缘的客户端开始,依次向接入层、汇聚层和核心层进行,进而定位发生故障的位置,判断发生故障的设备,分析发生故障的原因。

例如,当某个客户端无法建立与网络的连接时,所执行的诊断过程如下:

(1)测试同一接入层交换机上、处于同一VLAN的其他客户端。如果同一接入交换机上、处于同一VLAN的其他客户端能够正常通信,则将故障定位在故障计算机,以及其所连接的端口(如物理损坏或配置错误)和所使用的物理链路上(如布线故障、跳线故障等)。否则,可能是接入层交换机与汇聚层交换机的连接发生故障,或者是汇聚层交换机配置错误。

(2)测试同一接入层交换机上、处于其他VLAN的其他客户端。如果同一接入交换机上、处于其他VLAN的客户端能够正常通信,则将故障定位在故障用户所连接的接入层交换机上。否则,可能是接入层交换机与汇聚层交换机的连接(如端口故障、配置错误、跳线故障等)发生故障,或者是汇聚层交换机配置错误。

(3)测试连接至同一汇聚交换机的其他接入层交换机上的计算机。如果连接至同一汇聚交换机上的其他交换机可以实现与网络的通信,那么,可以将故障定位在汇聚交换机与接入交换机的连接上(如端口故障、配置错误、垂直主干布线故障、跳线故障等)。否则,可能是汇聚交换机与核心交换机之间的连接发生故障,甚至是核心交换机发生故障。

(4)测试连接至核心交换机中同一线卡上的其他汇聚层交换机。如果连接于同一线卡上的其他汇聚交换机连接正常,那么故障可能是线卡端口与汇聚交换机上行端口连接故障(如端口故障、配置错误、主干线路故障、跳线故障等)。否则,可能是线卡故障或配置故障。

(5)测试核心交换机上其他线卡所连接的汇聚层交换机。如果连接至不同线卡的交换机都无法正常连接,则可能是核心交换机配置错误,或者是交换机引擎故障,甚至是系统映像故障。

4.先链路后设备

通常情况下,网络设备发生故障的可能性比较小。与之相对应,网络链路由于接(插)件比较多,而任何一个接(插)件的松动或故障,都可能导致物理链路的中断。因此,在发生网络故障时,如果确认是硬件故障,那么,应当先检查链路的完整性,而后再查看端口或设备是否发生故障。

例如,当某台计算机无法连接至网络时,在排除软件故障后,接下来要做的第一件事就是使用测线仪测试整个物理链路的连通性。确认链路连通性完好后,再试着更换该计算机所连接的交换机端口、插槽、模块,或者更换网卡。