第1章C i s c o故障诊断与排除
结构化方法
1.1 简介
文章内容包括:
• 故障诊断与排除结构化方法的重要性。
• 网络故障的诊断与排除问题解决模型的应用。
• 用户可以从Cisco System公司获得的支持资源。
为了能顺利地诊断并排除网络故障,网络工程技术人员必须掌握两种基本的技能。首先是
对网络技术和协议要有清楚的理解,它是诊断与排除网络故障的基础。没有适当的知识和经验,
故障诊断与排除工具(比如路由器诊断命令和网络分析仪)就不能被正确的使用。本书的绝大部分
章节将集中讨论当前正在使用的技术。它将帮助读者应用各种诊断工具,包括但是不局限于可
以运行于C i s c o设备上的工具和命令。
网络工程技术人员必须掌握的第二种技能是将所掌握的知识有条理的方式应用于诊断和排
除网络故障的过程中。本章将讨论故障诊断与排除结构化方法的重要性以及实现方式。有许多
工程技术人员认为故障诊断与排除计划不如研究和应用技术本身重要。事实上,正确的计划在
故障诊断与排除过程中往往起决定性的作用。在故障排除过程中,一个偶然的行为可能使故障
得以顺利解决,但是它不能替代结构化的故障诊断与排除方法。有一小部分故障可以通过这种
方式解决,但是考虑自己曾经碰到的网络故障,我们可以发现周密计划和结构化的方法才是解
决网络故障的正确途径。
1.2 故障诊断与排除策略
1.2.1 网络互连的复杂性
网络互连是通信技术中十分广阔和复杂的领域。在这一领域可以预见的将来,它的复杂性
将不断的增长。因此,对于设计、安装和维护网络的工程技术人员来说,这既是一种机遇,也
是一种挑战。
在故障诊断与排除的过程中,网络工程技术人员首先必须对网络应用程序的协议和技术有
清楚的了解。同时,在碰到网络故障时,还应该能将这些知识有条理地是加以使用。随着网络
的日益复杂,网络工程人员的知识也必须随时更新。现代网络技术支持更广泛的应用程序,并
且这些应用程序的集成度更高,数字、音频和多媒体可同时在网络上传输。新应用程序的不断
出现刺激着带宽的需求,反过来又促进新技术的不断出现。例如,在很短的时间内, 1 0 M B共享
式以太网就发展成了G B交换式以太网。同时,新技术还必须支持传统的系统。譬如,系统网络
体系结构( Systems Network Architecture,S N A)仍然被使用,数据链路交换( Data Link
S w i t c h i n g,D L S W)技术也被有效的集成到了现代网络体系结构中。传统的系统与不断更新的
应用程序并存,使局域网和广域网变得十分复杂,因为它们必须支持多种不同的桌面和路由协
议,以使不同地应用程序可以正常地运行。
面对日益复杂的网络,工程技术人员解决网络故障的能力日益减弱,其原因往往是在碰到
十分复杂的问题时,他们不能够按照他们解决简单问题的步骤来解决复杂问题。这种状况与年
青人学车类似,年青人在相对平静的郊区练习时,能够很仔细地操作和顺利地驾驶;然而,当
他们第一次驶入市区,复杂的状况使他们精神紧张,以致不能完成最基本的操作从而可能引发
交通事故。虽然我们不愿意承认,但工作于技术领域的人有时也犯这种错误。当我们第一次碰
到十分复杂的问题时,往往忽略了结构化方法的作用。在处理表面上复杂的问题时,采用有条
理的故障排除方法是十分有效的。读者将会发现,当问题以一种结构化的合理的方式被分解时,
正如我们下面将要描述的方法一样,问题的复杂程度将会迅速下降。
1.2.2 问题解决模型
图1 - 1显示了问题解决模型的流程图,它可被应用于解决网络互联问题。下面我们以基于
C i s c o网络互联环境为基础来讨论模型的每一个步骤:
定义问题对于任何一个问题,尤其是复杂的网络问题,这一步骤可能是问题解决过程中最
关键的步骤,它也是大多数人在解决问题时最容易忽略的步骤。在通常情况下,网络工程师往
往跳过这一步而开始解决他们认为的故障。这在解决影响到关键网络资源、十分紧迫任务时经
常发生。在这种情况下,网络工程师和管理人员必须认识到,越是关键紧迫的问题越需要采用
有条理的方法来解决。
在定义网络互联问题时,网络工程师必须首先回答以下问题(部分或全部):
• 问题是连续出现还是间断出现?
• 问题使服务的性能下降还是使服务彻底崩溃?
• 哪个或哪些局域网服务器受到了影响,它们的地址是什么?
• 那些客户端访问这些服务器时发生问题,这些客户端访问的是本地访问服务器还是访问远
程访问服务器?
下面是一个问题定义的示例:
在网络2 0 4 . 2 1 0 . 1 0 . 0中的用户不能够连接地址为2 0 8 . 11 . 1 . 1 8的邮件服务器。
上述问题如果定义为:大多数用户在使用邮件时碰到问题,则是不准确和不完善的问题定义。
搜集事实这一阶段应该为问题的定义提供更多的事实和信息。许多方法被用于收集信息,
用户应首先考虑采用最简单和最快速的方式。要询问报告问题的用户尽可能多的问题,但必须
记住用户提供的答案并不总是绝对准确的。在信息收集阶段,信息的准确性十分关键。用户必
须准确区分事实和假设,并且能够从大量信息中找到相关信息,这一点对于处理从多个不同的
地方收集到大量的信息时尤其有用。
2使用Cisco网络互连与故障排除
下载
在信息收集阶段,应该问网络用户和管理员以下问题:
• 问题是何时被发现的?
• 是否有用户在访问受到影响的服务器时没有问题?
图1-1 问题解决模型流程图
• 问题的出现是否与网络的变化有关?
• 如果仅仅是服务性能下降,而不是服务完全崩溃,能否评估服务性能下降的程度?即所谓
的网络基线(network baseline),我们将在本章后半部分详细讨论这个这个问题。网络基线
定义了网络在正常运行时的性能。网络性能应该是可以评估的,基线以网络管理员周期性
的工作为基础评估网络性能。基线的定义使解决问题的工程师能够根据受影响的程度判断
第1章Cisco故障诊断与排除结构化方法使用3
下载
问题定义
搜集事实
基于事实考虑的可能性
建立行动计划
实施计划
观察结果判断是否继续
Yes
No
循环
解决问题
引发网络故障原因。
从网络管理员和用户中获得事实后,网络管理员可以使用网络诊断工具进一步获取信息。同
样,也可以从最简单的工具开始,比如,网络管理工作站、路由器和交换机的s h o w和d e b u g命令
以及根据需要所使用的分析仪。对这些工具的讨论以及它们的使用方法将贯穿本书的所有章节。
在信息收集阶段,需要完成的一个十分关键的任务是使用路由器和交换机上的工具建立准
确的网络拓扑图。在碰到用户不是十分熟悉或者网络不在管理范围内时,这一点尤其关键。详
细的网络物理和逻辑图对于分析网络连通性、信息流量和路由问题十分有用。不要轻信可以获
得的文档和信息(通过询问网络管理员或其他方式)。在一个组织严密的网络中,网络设备的配
置和网络图表都应该进行实时更新并保存。不幸的是,在现实生活中,大多数网络都没有做到
这一点,因此网络管理员必须重新获得这些信息。
根据上面提到的问题定义的示例,管理员可能进一步获取以下信息:
• 在网络2 0 9 . 2 1 . 11 . 0中的用户可以正常使用地址为2 0 8 . 11 . 1 . 1 8的服务器上的邮件服务。
• 在网络2 0 4 . 2 1 0 . 1 0 . 0中的用户在前一天晚上在局域网操作系统上运行了一些程序,然而,
这并不会影响到服务。
• 使用适当的C i s c o路由器命令(将在后续章节详细讲解)建立的网络拓扑图如图1 - 2所示。
图1-2 网络拓扑图
基于事实考虑可能性最重要的是事实。用户必须以事实为基础,而不是假设!如果一个复
杂的问题间断的出现,我们就可以认为百分之九十五的时间能够正常运行的假设不再成立。我
们需要百分之百的准确性。如果不能够完全肯定,那么一条信息就应该是假设而不是事实。另
外,对于网络工程师来说,搜集到完备的事实是不可能的。因为在某些情况下,用户和网络管
理员很难提供有用的信息,或者没有有效的方法使用管理和诊断工具获取信息。
4使用Cisco网络互连与故障排除
下载
广域网
路由器R1
路由器R2
路由器R3
邮件服务器
回到上一个示例,根据获得事实推出的可能性如下:
1) 可能是服务器或者路由器R 1不能够正常路由到网络2 0 4 . 2 1 0 . 1 0 . 0。但是,我们首先还应该
考虑更多不同的可能性。
2) 路由器R 2的局域网连接和广域网连接异常。
3) 网络2 0 4 . 2 1 0 . 1 0 . 0中的用户在本地局域网中路由不正常。
建立行动计划在图1 - 1中,用户可能注意到在第一次努力不能排除故障时将会返回到这一
步。因此计划应尽可能在实验环境中模拟,以判断是否可以排除故障。实施阶段以及观察结果
也可以在试验环境中进行模拟。这一方法由于受到时间和资源的限制并非总是可行的。但是,
它通常是最令人满意的方法,因为在模拟环境中可以使用一些在实际环境中不能使用的工具,
比如d e b u g命令。
用户需要清楚地了解排除故障所需要的时间周期。这一点对于较差的网络设计所引发的问
题尤其重要。对于时间和任务关键的应用程序,由于网络设计的问题而导致故障将没有时间通
过重新设计来排除问题。相反,如果时间上允许修正错误的设计,那么重新设计比临时打补丁
要有效得多。对于解决示例所提出的可能性,最容易检测也最可能的是第二种。在大多数情况
下,应首先检查路由器R 2,用户可以使用相关的诊断工具提供更为详细的信息。
计划中应该首先检测路由器R 1到R 2的连通性。在检查路由器R 1时,同时需要检查是否有到
网络2 0 4 . 2 1 0 . 1 0 . 0的路由。如果一切正常,则t e l n e t到路由器R 2,检查局域网接口,然后再采用
其他适当的路由器诊断方法。
实施计划在这一阶段,网络管理员通过使用C i s c o路由器诊断工具、网络管理工具和其他
测试方法来执行计划。在实施故障诊断与排除计划中所需要的工具和技术将在本书后续章节进
行详细的讲解。
观察结果我们再回到示例。假设计划实施后结果如下:
• 路由器R 1到R 2的广域网连接工作正常。同时,路由器R 1包含到网络2 0 4 . 2 1 0 . 1 0 . 0的路由。
• 当通过t e l n e t访问R 2时,所有接口协议都能正常启动,没有发现与接口或者路由器操作有
关的错误。路由器也包含了到2 0 8 . 11 . 1 . 0 / 2 4的路由。
从结果看来,计划的实施并没有找到故障的原因,但是它排除了很多可能性。根据问题解
决模型,必须循环建立一个新的计划。
循环过程新的计划必须以新的事实为基础。假设路由器R 1到R 2通过I P协议互连,那么应
首先考虑第三种可能性。即在网络2 0 4 . 2 1 0 . 1 0 . 0 / 2 4中的用户能否访问到其他网络?有可能局域网
操作系统更改了本地工作站I P地址的配置。例如,它们可能失去了静态路由或者缺省网关等信
息。在通过事实推出的可能性中,我们曾提及局域网用户的一些操作没有影响到服务,但这仅
仅是假设,而不是事实。
在循环过程中,下一步是建立计划测试在网络2 0 4 . 2 1 0 . 1 0 . 0中用户的I P路由功能。然后实施
计划并观察结果,不断重复上述过程直到找到故障的原因并排除故障为止。
上述的模型是标准的问题解决模型,在许多商业和技术文档中读者可以发现许多这一模型
的变种。这并非是什么新奇的事情,上面提到的模型只提供了一种思路而不是教条。用户不必
也不需要逐字逐句遵守任何一种模型的每一个步骤,而应该是在解决问题时应注意采用结构化
第1章Cisco故障诊断与排除结构化方法使用5
下载
的方法。例如,采用上述模型来解决问题就是一种结构化方法。
1.2.3 信息和文档列表
在诊断和排除任何严重或复杂的网络故障之前,用户应编撰下述文档:
详细和准确的网络图表我们已经强调过拥有详细的网络物理和逻辑图表的重要性。如果读
者管理着一个网络,那么不应该在解决问题时才完成这一工作。整个网络的设备配置和网络
图表应及时备份并在修改时及时更新。在第2章网络管理中我们仍然会讨论这些问题。在本书
的其他章节中,排除各种网络故障时我们还将使用到这些图表。在大多数情况下,网络图表
将在问题描述时给出。但在实际应用中,用户应时刻注意编写这些信息文档。
理解基本网络技术如果用户不理解网络中应用到的技术和协议,诊断和排除网络中出现
的故障是不可能的。下面列出了许多的基本问题,用户应该尽可能的理解这些问题。但是,
这仅仅是一个起点,我们并没有举出所有的问题。经验和直觉将会使用户进一步掌握更多的
细节。
• 局域网和广域网使用的传输介质是什么?
• 桌面协议有哪些,在局域网和广域网中实现了哪一些协议?
• 路由协议是什么?
• 哪一些协议可以通过网桥和交换机?
• 哪一些应用程序和客户服务器通信需要使用网络?
• 网络的安全策略是什么?也许一个客户不能够连接服务器是因为客户没有访问服务器的
权限而不是网络故障。
连接商业伙伴的文档大多数网络并不是一个自治的单元,他们通常与不同的商业伙伴
或直接与I n t e r n e t相连。在本地网络没有实现的技术可能在与其他商业伙伴或I n t e r n e t相连时需
要用到。在收集基本的网络技术信息时,这一点不应被忽略。例如,读者可能使用了防火墙。
通常,工程师可能因为防火墙路由器不响应I n t e r n e t消息控制协议( I C M P )的P I N G报文而认为发
生网络故障。然而,这有可能是防火墙的安全策略导致的结果。再比如,外部网关协议仅在与
商业伙伴联接时才使用。用户还需要理解缺省路由问题,因为缺省路由可能导致路由循环。
必须注意的一点是在与I n t e r n e t和其他商业伙伴连接时需要访问超过本地网络管理范围的
路由器。当需要与第三方进行协作时,准确的编辑网络信息文档显得更为重要。
网络基线网络性能基线的评估应该是网络管理员的一项周期性任务。如果在网络故障发
生以后再试图建立网络基线,则可能为时已晚。建立基线的作用在于可以通过与正常网络性
能的比较了解故障的严重程度。
确定基线有许多方法。其中包括使用网络管理应用程序测量ICMP ping的响应时间来建立
网络基线。
在正常的网络条件下,对服务能力的正确评估十分重要。例如,响应速度慢等问题可能是
由于网络设计不合理,而不是由于特定的故障导致。在共享式以太网中,多个客户同时以
5 6 K b p s的速度向多个服务器传输文件。如果用户报告响应速度慢,那么这并非由特定的网络
故障而是网络设计导致的。设计严重的影响局域网和广域网的资源的利用。建立基线可以判
6使用Cisco网络互连与故障排除
下载
断网络性能的好坏,只有重新设计网络才能够提高网络基线。建立基线的另外一个好处是它
可以使网络技术人员判断故障是否在他的管辖范围之内,从而避免将大量时间浪费在试图排
除不属于本地网的故障上。
当网络性能下降时,基线可以为确定故障的严重程度提供参照。
1.3 Cisco故障诊断与排除资源
下面,我们简要列出了Cisco System公司为其客户提供的技术支持。在写作本书时,笔者曾
大量参考这些资源。
1.3.1 Cisco Connection Online
Cisco Connection Online (CCO)是C i s c o的主页,地址为w w w. c i s c o . c o m。除了故障诊断与
排除方面的技术支持外,它还提供了大量的网络互联技术信息,但是它对C i s c o采用的技术有所
侧重。
C C O不论是在内容还是在结构上都在不断更新,用户最好定期浏览这一站点。在编写本书
时,与故障排除相关的部分有:
• 服务与支持,包括:
• Cisco路由器和交换机完整的硬件和软件文档
• 配置示例
• 与设计、配置和故障诊断与排除相关的技术细节
• Cisco IOSTM bug搜索机制
• 软件中心(允许C i s c o客户下载Cisco IOS和交换机软件)
• 合作伙伴和销售商提供大量与故障排除、技术支持、升级和培训相关的服务。它主要面
向C i s c o客户和销售商,他们与Cisco System公司有密切的关系,如金牌或银牌合作伙伴。
在这一部分中有一些资源需要登录I D才可以访问。根据与Cisco System公司的关系,不同
的登录I D有不同的权限。
1.3.2 技术支持中心
Cisco 技术支持中心( Technical Assistance Center,TA C )可以通过电话或者是W E B进行联系。
C i s c o客户如果有C i s c o设备的维护合同,在与TA C联系时可以给出故障标号,不同的标号代表着
不同的故障级别。
1.3.3 其他C i s c o资源
• 与产品一起发布的设备手册这一资源往往容易被忽略。手册中的绝大多数信息都可以从
C C O获得,但是手册有其独特的用途:
• 它为最基本的设备初始化及设备配置提供了详细的指导。这一点对于从未配置过特定类型
的路由器或交换机的用户尤其重要。
第1章Cisco故障诊断与排除结构化方法使用7

• 它为各种类型硬件的安装以及删除提供了详细的指导。它不但对安装有用,而且对硬件升
级以及排除故障时替换硬件也有帮助。
• 它为排除硬件故障所提供的信息很难从其他地方找到。例如,显示灯的颜色所代表的状态
信息。通过这些信息,设备的运行状况以及每一个单独的线卡的状态都一目了然。
• UniberCD 它包含C C O中的所有信息。
• 硬拷贝文档完整的I O S文档可以通过硬拷贝的方式获得。Cisco Press同时出版各种与设计
和配置基于C i s c o的网络的相关技术文档。
8使用Cisco网络互连与故障排除