5.3网络设备故障诊断方法
网络设备故障多种多样,不同故障有不同的表现形式。在分析故障时要通过各种现象灵活运用排除方法,例如排除法、对比法、替换法等。在实际应用中,要根据不同的故障现象使用不同的诊断方法,或者几种方法综合使用。
1.排除法
排除法主要是指根据所观察到的故障现象,尽可能全面地列举出所有可能导致故障发生的原因,然后逐一分析、诊断、排除。
使用排除法,虽然可以应付各种各样的网络设备故障,但要求网络管理员拥有深厚的理论功底、丰富的实践经验、较强的逻辑思维能力,并且全面了解、掌握并灵活运用各种网络测试工具和管理工具,善于分析问题和解决问题。同时,由于导致故障现象发生的因素比较复杂,往往是一因多果或一果多因,因此,在解决和排除故障时,会耗费较多的时间。由此可见,应当仔细观察故障现象,并根据经验依次排列可能的故障原因,先从最可能导致故障的原因开始调查,从而缩短故障定位和解决问题所用的时间。
归根结底,其他所有故障排除方法都是从排除法演变而来的,包括对比法和替换法,只是对比法和替换法在某些场合中比排除法更具有针对性。
2.对比法
顾名思义,就是对比故障设备和非故障设备之间的“软”“硬”差异,从而找出可能导致故障的原因。可用于对比的内容包括:
(1)网络设备。当网络设备所连接的所有计算机都发生通信故障时,可对比型号和配置完全相同的网络设备。比如,某建筑物内拥有4台型号和配置完全相同的交换机,当其中一台交换机所连接的计算机发生通信故障时,就可以与另外3台交换机进行对比,查看各种LED指示灯、配置文件、运行状态(如CPU、内存、带宽占用率)有什么差异。
(2)端口(包括GBIC/SFP插槽)。当连接至某个端口的计算机或网络设备发生通信故障时,可对比类型和配置完全相同的端口或插槽。比如,当某个端口或插槽发生连接故障时,可以用与之类型和用途(例如,都用于连接至划分有多VLAN的网络设备)完全相同的端口或插槽进行对比,比较LED指示灯、端口状态(Up还是Down)、端口设置(如端口属性设置、VLAN或Trunk设置、认证安全设置等)是否相同。
(3)线卡。当连接至某个线卡的计算机或网络设备发生通信故障时,对比型号完全相同、配置基本相同的线卡,查看各端口工作状态、配置文件的差异。
(4)系统配置。当配置修改后发生故障时,可对比配置修改前和修改后的网络设备工作情况,以及其他有相同或类似用途、配置基本相同的网络设备的运行状态。
(5)系统映像。对比安装相同版本、更高版本或更低版本系统映像的其他同型号网络设备的工作是否正常。
使用与所怀疑发生故障的网络设备完全相同的设备进行替换,或者使用相同的端口、插槽或模块进行替换,并对两台设备或端口的不同连接进行对比,在对比结果中找出故障点并进行排除。这种方法虽然简单有效,但有时可能出现故障的设备不止一台,那么排除起来就可能会非常麻烦了。
但在系统配置故障方面,对比法确实是一个不错的方法,在排除故障时,只需要找一台配置相同的网络设备进行替换对比,即可找到故障之所在。但是,有时想要找一台型号相同、配置相同的网络设备也不是一件很容易的事,特别是对于核心网络设备而言。
3.替换法
替换法从某种意义上来说与对比法是相同的,都是使用已知正常的网络设备或网络设备部件进行替换,并找出故障的部件进行排障。替换法主要用于网络设备硬件故障的诊断,但需要注意的是,替换的部件必须是相同品牌、相同型号的同类网络设备才行。同时,替换法还是平时维修计算机的一种方法,可以说该方法在硬件维护方面的应用是非常广泛的。可用于替换的内容包括:
(1)网络设备。当网络设备所连接的所有计算机都发生通信故障,怀疑网络设备主板发生故障时,可以用型号和配置完全相同的网络设备进行替换。
(2)端口。当连接至某个端口的计算机或网络设备发生通信故障时,可以将跳线连接至其他类型和配置相同的端口进行测试。
(3)交换引擎。当整个网络瘫痪时,可以使用相同型号的管理引擎进行替换,并导入预先备份的配置文件,然后测试网络是否恢复正常。
(4)线卡。当连接至某个线卡的计算机或网络设备发生通信故障,怀疑线卡发生故障时,使用型号完全相同的线卡替换,插入原有GBIC/SFP模块并连接原有设备,重新激活各端口,然后测试各端口工作状态和网络连通性。
(5)GBIC/SFP模块。当连接至某个插槽的计算机或网络设备发生通信故障,怀疑GBlC/SFP模块损坏时,可以用型号完全相同的GBIC/SFP模块替换并测试。
(6)链路。当网络设备之间、网络设备与其他网络设备之间、网络设备与网络终端设备之间的通信发生故障,怀疑光纤或双绞线跳线、网络物理链路有问题时,可以使用测试或使用正常的跳线和链路替换,而后再进行连通性测试。
(7)系统配置文件。当配置修改后发生故障,怀疑配置文件错误时,可用预先备份的配置文件替换现有配置文件;或者将其他类似网络设备的配置文件导出,并做适当修改后,替换现有配置文件,测试网络通信是否恢复正常。
(8)系统映像。当系统运行不稳定、频繁瘫痪、屡遭攻击时,将系统替换为最新版本,然后观察系统运行状态。