5.2网络故障排除过程
在开始动手排除故障之前,最好先准备一支笔和一个笔记本,将故障现象认真、仔细地记录下来。也就是说,应当养成一种良好习惯,在开始着手进行故障排除时就开始做笔记,而不是在事情做完之后才来做。认真而翔实的记录不仅有助于一步一步地记录问题、跟踪问题并最终解决问题,而且,也为自己或同事以后解决类似问题提供了完整的技术文档和帮助文件。
1.识别故障现象
网络管理员在进行故障排除之前,必须确切地知道网络上到底出了什么毛病,是不能共享资源,还是不能浏览Web,或是不能登录邮箱等。知道出了什么问题并能够及时识别,是成功排除故障最重要的步骤。对一名网络管理员的最基本要求,首先就是对问题进行快速定位。也就是说,能够及时找到处理问题的出发点并与故障现象进行对比,必须非常清楚网络的正常运行状态。因此,了解网络设备、网络服务、网络软件、网络资源在正常状态下的表现方式,了解网络拓扑结构、理解网络协议、掌握操作系统和应用程序,都是排除故障必不可少的理论和知识准备。再次强调,在识别故障现象之前,必须明了网络系统的正常运行特性。
识别故障现象时,应该询问以下几个问题:
(1)当被记录的故障现象发生时,正在运行什么进程?
(2)这个进程以前运行过吗?
(3)以前这个进程的运行是否成功?
(4)这个进程最后一次成功运行是在什么时候?
(5)故障现象是什么?
2.对故障现象进行详细描述
当处理由用户报告的问题时,对故障现象的详细描述显得尤为重要。当用户说无法浏览Web网站时,仅凭这些信息,恐怕任何人都无法做出明确的判断。这时,就要亲自到现场去试着操作一下,运行一下那个程序,并注意出错信息。例如,在使用Web浏览器进行浏览时,无论输入哪个网址都返回“该页无法显示”之类的信息;使用Ping程序时,无论Ping哪个IP地址,都显示超时连接信息等,诸如此类的出错信息会为缩小问题范围提供许多有价值的信息。注意每一个错误信息,并在用户手册中找到它们,从而得到关于该问题更详细的解释,是解决问题的关键。另外,亲自到故障现场进行操作,也有机会检查用户操作系统或应用程序是否运行正常,各种选项和参数是否被正确地设定。如果在操作时没有任何问题,那就可能是操作者的问题了。不妨让用户再试一次,并认真监督他的每一步操作,以确保所有的操作和选项都被正确地执行并设置。
当然,在亲自操作时,应当对故障现象做出详细的描述,认真记录所有的出错信息,并快速记录所有有关的故障迹象,制作详尽的故障笔记。实际上它们究竟表明了什么,这些故障现象是否相互关联呢?在寻找问题答案的过程中,很有可能又发现更多的故障现象。所以,在开始排除故障之前,应按以下步骤执行:
(1)收集有关故障现象的信息。
(2)对问题和故障现象进行详细的描述。
(3)注意细节。
(4)把所有的问题都记下来。
3.列举可能导致错误的原因
接下来要做的就是列举所有可能导致故障现象的原因了。网络管理员应当考虑导致无法浏览Web的原因可能有哪些,如网卡硬件故障、网络连接故障、网络设备故障、TCP/IP协议设置不当等。在这个阶段,不要试图去找出哪一个原因就是问题的所在。只要尽量多地记录下自己所能想到的,而且是可能导致问题发生的原因就可以了。或许可以根据出错的可能性把这些原因按优先级别进行排序。注意,千万不要忽略其中的任何一个细节。
4.缩小搜索范围
网络管理员必须采用有效的软(硬)件工具,从各种可能导致错误的原因中一一剔除非故障因素。对所有列出的可能导致错误的原因逐一进行测试,而且不要根据一次测试,就断定某一区域的网络是运行正常或是不正常。另外,也不要在自己认为已经确定了的一个错误上停下来,而不再继续测试。因为此时既可能是搞错了,也有可能存在的错误不止一个。所以,应该使用所有可能的方法来测试所有的可能性。
除了测试之外,还要注意做以下几件重要的事情:
(1)千万不要忘记查看网卡、交换机和路由器面板上的LED指示灯。通常情况下,绿灯表示连接正常,红灯表示连接故障,不亮表示无连接或线路不通,长亮表示广播风暴。指示灯有规律地闪烁才是网络正常运行的标志。
(2)千万不要忘记查看服务器、交换机或路由器的系统日志,因为在这些系统日志中,往往记载着产生的错误及错误发生的全部过程。
(3)如果安装了网络管理软件,可充分利用它们来检查一下哪些设备出现了问题。这些网络管理软件往往具有图形化的用户界面,因此,交换机各端口的工作状态可以一目了然地显示在屏幕上。除此之外,许多网络管理软件还具有故障预警和报警功能,从而使在缩小搜索范围时能省下不少的力气。
(4)当然,在这一步骤中最不能忘记的还是要记录下所有的观察及测试的手段和结果。
5.隔离错误
网络管理员经过反复测试,最终明白了到底是哪一部分故障导致了问题的发生,并最终确定很有可能是计算机出错了。于是便开始检查该计算机网卡是否安装好、TCP/IP协议是否安装并设置正确、Web浏览器的连接设置是否得当等一切与已知故障现象相关的内容,然后剩下的事情就是排除这个故障了。此时,由于对所发生的故障已经有了充分的了解,那么,故障排除也就手到擒来了。但是,不要就此匆忙地结束工作,因为还有更重要的事情等着去做。
6.故障分析
作为网络管理员,必须搞清楚故障是如何发生的,是什么原因导致了故障的发生,以后如何避免类似故障的发生,拟定相应的对策,采取必要的措施,制定严格的规章制度。对于一些非常简单明显的故障,上述过程看起来可能会显得有些烦琐;但对于一些复杂的问题,这却是必须遵循的操作规程。
最后,记录所有的问题,并保存所有的记录。经常回顾曾经处理过的故障也是一种非常好的习惯,这不仅是一种经验的积累,便于以后处理类似故障,而且还会启发思考许许多多与此相关联的问题,从而进一步提高理论和技术水平。