网管常犯的十个错误
网络管理阶层的工作就是保证网络的正常工作,从而使得职工们的工作不被打断。可问题在于事物并非总是按照理想状况发展,事实上经常会出现平地起风波的状况。其间有许多原因,这里我们只讨论10种较为常见的网管错误。
1.UPS(不间断电源)的使用问题
某商店正在压榨它的网络系统的最后生命。尽管那台很老的服务器几乎难以满足商店运营的需要,但经营者甚至连更换UPS中的电池都不愿意,事实上电池每两年就应该更换一次。终于有一天突然停电了,而这个UPS实在是太老了,它已经不能控制服务器安全关机了。电池能量大部分早已耗尽,所以它也很快没电了。结果,防控异常情况的控制器没能起到正常关闭服务器的作用。商店每日的正常运转和交易事宜全靠这个服务器。修复服务器花了三天时间,而弥补由此带来的损失需要花费更长时间。事实上,一个价值仅75美元的电池就能有效避免上述事情的发生。
2. 没有整理好所需要的东西
一个电话打进公司总部说某个分公司的服务器出了问题,网络管理员飞奔出办公室,驱车一小时到达出事地点。结果,他发现操作系统文件被毁坏了一部分,这样,他所有能做的只有重新安装操作系统。该分公司的网络管理员一时找不到安装盘,没关系,这位总部的管理员有,不过在他的办公室里——离这里单程一小时、往返两小时。收拾好一个背包,随身带着。所有你可能需要的东西,包括你的用户所使用的操作系统备份,都应该在背包里放着。这是很容易做到的,不需要花费些什么,但在更新操作系统之类的问题上能起到关键性作用。
3. 没有安装补丁
一个玩具制造商的服务器连接出了问题,使得全体职员与自己的文件都失去了联系,生产被迫停止两天。损失严重!一位新近被雇的网络管理员负责解决这个危机。他很快发现以前的网络管理员在三年前安装系统的时候没有安装补丁。
补丁是免费提供的,也许它们不是开放式的,但它们通常是很容易配置,任何一个系统管理员都能够做到。之前的那位管理员说,因为系统运行得很好,所以不需要打补丁。这种说法显然是很不负责任的。
4. 备份工作不当
某医院办公室存储了很多医药文件和病历的服务器出了故障。因为服务器上没有信息可以被存取,办公室的各项运转基本停止。网络管理员立即拿出一个备份文档的带子,试图修复。当她发现这个带子是空的时,心沉了下去。她检查了另外的备份带子,居然全是空的!她检查了办公室的日志,发现同僚们两年来每天都更换备份带,只是带子被放进从来没有安装备份软件的服务器里,没有人知道备份带有问题,因为从来没有人检查过,而只是两年内坚持每天更换空白备份带。这件事使医院损失惨重。其实只要任何一个数据库管理员做一个简单的备份检查就可以避免这种重大问题的发生了。事实上,他们正在这样做,每天都是。
5. 劣质的电缆线路工程
一个银行的网络经常出问题,为此他们专门对配线箱做了检查,检查中发现,许多RJ-11RJ-12的插头插进了RJ-45插座之内。而且在每一个插座里都插入了一根牙签,这样布的电缆线路难怪会出问题。许多网络问题都归咎于不合适的电缆线路连接,所以,精明的管理者最好让有经营许可证的、有担保的并且信得过的电缆线路承包商来架接电缆线路。
6. 设备转手次数太多,内部构成出问题
一项专业的运动团体买了一个名牌服务器,但是它刚开始工作时就出问题。该网络管理员向操作系统厂商和硬件厂商提出帮助请求。后来发现,提供这个名牌服务器的转售商人给这个服务器配置的是非名牌的内存、非名牌的磁盘控制器,以及非名牌的外置磁盘驱动器,只因为这些组件要便宜一些。该硬件厂商和操作系统厂商拒绝提供支持,因为服务器被一些非名牌的构件所混淆,其结构不易被鉴定。
7. 没有签订授权合同
某办公室去年花费大量现金采购了服务器。该系统有RAID 5的冗余保护, 双电源和24×7支持,而一年之后,驱动器坏掉了。保证24×7支持的工作人员来了,他打电话给硬件厂商,厂商问他合约号码是什么,而该办公室之前并没有签订授权合同。没关系,厂商说,他们离授权到期还有两年时间,我将在五六天内给你更换驱动器。
但是,厂商的宽容是远远不够的,最好保证你有全套24×7支持,去一个办公用品商店买标签,在每个标签上写上授权合同号码和技术支持的电话号码,然后把它们贴在每一台机器上。
8. 没有建立测试环境
几年以前,一家软件发展公司安装了一个新的工作站,它用的是最快的随机存取储存器,最快的硬盘驱动器和最快速的处理器,它将作为董事长的新工作站。在安装完成后不久,这位董事长接受了来自他最大的合伙人公司的一个请求,用它来测试新的人造宇宙站的通信平台,其结果是蓝屏。当他惊讶之余重新起动计算机时,内部保存的信息什么都没有了。在重建系统之后,他又花了四天时间才从那一堆操作指南中摆脱出来。
另外一家公司的董事长比较聪明,建造了一个测试网络。在系统升级之前,他们会在测试网络上做做试验,一次又一次地找出错误, 反复设定网络不断试验,直到它完全正确。只有在试验结果完全正确地情况下,他们才会真正展开系统升级。
第一个公司的董事长再也不把自己的服务器当测试仪用了。
9.存储容量计划不周
某艺术公司五年前买服务器的时候,该服务器可以支持六个8G-byte RAID Array 5 驱动器。为了要节省钱,公司坚持只买四个4G-byte驱动器。网络管理员说, 不久他们会需要较多的空间,公司最终妥协了,多买了两个驱动器,如此了结了此事。在三年之后他们出现了严重的空间不足问题,他们甚至不得不删除只有50K byte的小文件。他们急需扩大容量,而当时8G-byte的驱动器已经买不到了,更大的服务器又支持不了。而能解决该问题的一个新的额外子系统将需要比原服务器更多的钱。这样,他们只得比计划的提前两年更换服务器。因此,做好存储容量计划,会使你节约开支,甚至可能大大延长你的系统寿命。
10.错误操作是最大的隐患
下午办公室的电源突然断掉了,紧张的办公室经理认为这会损害他们的两个服务器,因此他采取了快速行动——他走过去把服务器都关掉了。回家时,他还为他的快速行动而自豪。可第二天早晨,当他回到办公室打开两个服务器时,发现里面内容什么都没有了。事实上,昨天当他按下服务器开关时,服务器正在进行关键文件的复杂更新工作,他中止一台服务器的工作时影响了另一台服务器关键性数据库的存盘。结果修复网络工作花了两天时间。
在所有保护网络工作的问题中,这种情况是最不可预知的。因此,必须提高网络使用者的技术素质。
初级网管的网络安全
去年毕业以后,笔者成为了一所中学的计算机教师,并且兼职学校网管。学校的校园网去年刚刚建成,所以笔者每天的主要工作就是完善学校的网站,很少考虑网络的安全问题。没想到一个月后,我们的网站被黑掉了,这时我才认识到网络安全的重要性。之后,笔者采用了几个简单可行的方法,解决了黑客入侵的问题。
学校网络的具体情况如下:网络中心通过ADSL接入Internet(学校有固定的IP地址),网站服务通过端口映射放到了内网的两台计算机上,一台IP地址为19216801,提供WebFTPPOP3SMTP服务;另一台IP地址为19216802,提供VOD视频点播服务。操作系统均为Windows 2000 Server。在服务器安全方面采用以下方法进行设置:
方法一:安装杀毒软件。常在网上走,很容易被病毒光顾,所以在服务器上安装杀毒软件非常必要,而且最好是服务器版本的杀毒软件。另外,服务器文件系统一定要用NTFS格式。
方法二:开启Windows 2000 ServerUpdate自动更新功能,及时从网上下载各种有用的补丁。因为Windows 2000 Server的漏洞是出了名的多,只有及时安装补丁,才能有效防止黑客入侵。开启的方法:开始设置控制面板自动更新。
方法三:安装入侵检测系统。笔者安装了具有防火墙功能的BlackICE Server Protection软件,它集成了非常强大的检测和分析引擎,可以识别200多种入侵技巧,并能即时监测网络的端口和协议,自动拦截所有的网络入侵,设置也非常简单。
方法四:只开放能用到的端口号。服务器默认是打开所有的端口,但打开的端口号越多,服务器的安全系数越低。设置的方法是打开开始控制面板网络和拨号连接本地连接,在本地连接属性中打开“Internet协议(TCP/IP高级选项,选择“TCP/IP筛选,这样我们就可以对TCP端口进行筛选了。
网络不通的解决之道
本文根据笔者多年使用和维护校园网的经验,从实践出发,以Windows 98Windows 2000为例,谈谈网络不通这一故障的解决办法。
在排除是本机系统核心故障所造成的原因后,网络不通经常是由以下几个方面因素造成的。
1、网络配置不对
一般情况下,在同一校园网内每一台机器所拥有的IP地址必须是惟一的,在同一子网内所有机器的子网掩码必须相同,默认网关必须是本机所在子网和校内其他子网能够进行信息交换的网卡的IP地址。为解决这类问题,可打开桌面的网上邻居属性菜单,检查TCP/IP协议的配置数据,分析IP地址、子网掩码、默认网关配置是否正确,如果不正确,需重新配置。
2、网络接口故障
据我的工作经验,机器不能上网往往是由网线上的水晶头和网卡插口接触不良所引起(特别是经常需要移动的笔记本电脑)。遇到此类故障的做法是先把水晶头从网卡接口上拔下重新插一次,在保证网络接口已插紧的情况下,用ping命令进行测试,首先ping一下本机,然后再观察是否能ping通其他机器。例如本机的IP地址是192.168.0.2,校内另一台正在正常工作的机器的IP地址为192.168.0.3,在本机重新启动后在命令行状态下键入命令ping 192.168.0.3,如果屏幕上返回的信息是“Reply from 192.168.0.3 :bytes=32 time10ms ttl=128”之类的信息,说明问题已经得到解决;如果是“Requested time out”,说明网络不通,这时再发命令ping 192.168.0.2连接本机,如果信息仍然是“Requested time out”,说明所工作的机器网卡出现了物理故障,需要更换或修理;如果返回的信息是“Reply from 192.168.0.2 :bytes=32 time10ms ttl=128”,说明本机网卡没有问题。这时可将接头再拔下,观察水晶头上是否已生锈或者有灰尘,将其擦拭干净,再除掉网卡接口内的浮尘,接好后如上法重新测试,在大多数情况下即可解决问题。
机房布线经验谈
在计算机机房建设中,电源线和网络线的布设是一件非常重要的事情。这两类线布设得好的机房,电脑运行正常、故障率低,教师上课也顺手,课堂教学效率大大提高;反之,则故障频频,谈何课堂教学质量!
电源线的布设
在交流中,笔者发现不少学校机房内的学生机220V交流电源线的布设都是采用若干个多孔插座相互串接的方法,这种连接非常简单,但其弊端很多:以每个多孔插座连接4台电脑计,连续串接5个多孔插座就连接了20台电脑,这20台电脑如果同时开机,则瞬间产生的巨大冲击电流很容易将第一个多孔插座的交流保险丝烧毁。也许有人会说,20台主机同时开机的几率很小,可是如果这20台电脑的显示器在上次使用后没有关闭电源开关(因为需手动关闭),那么总电源接通瞬间仅这20台显示器产生的冲击电流也足以引发同样故障。
正确的电源线布设方法是:分组点接。使用标准电源护套线,每隔1.5左右接入一只20A三芯国标插座(即墙上嵌入的独立插座)作为一个点,再将上述多孔插座接入这个点。仍如上例,增加5只这样的三芯插座就可解决问题。还有就是每一组(可视实际情况分10台或16台为一组)由一个空气开关控制,整个电脑教室可分为4~6组。现在有些学校电源线施工比这还要讲究,不但每一个多孔插座都单独拉线,而且显示器电源也分组控制。
网络线的布设
网络线的布设首先要考虑的是对集线器、交换机采用何种方法管理。笔者看到不少机房为了节省网线,采取集线器串接的方法布线,例如在教师讲台下放置第一台,在第15号学生机下放置第二台,以此类推。这有点儿像上面电源插座的串接型,虽省下了网线,但带来的缺陷却很多:不便于集中管理,容易出现故障。而且串接越多,网络信号衰减越厉害。所以现在的电脑机房一般都将集线器、交换机集中摆放在教师机或服务器旁边(专门做一个机柜),大大方便了管理,同样也降低了网络故障率。
需要提醒的是,每一根网线两端的RJ-45头一定要按照标准制作,尤其是现在很方便就能实现的100M网络环境的机房。笔者发现不少新安装的电脑教室(包括电子阅览室等),由于RJ-45头做得不标准而影响通讯质量。按照568B规格,8芯线的排列是白橙、橙、白绿、蓝、白蓝、绿、白棕、棕。
以上电源线和网络线的布设应该在整个电脑机房安装的第一步实施,它是保障日后机房安全稳定运行的基础,必须引起足够的重视(有不少单位的机房是在安装了电脑后才布线)。按照上述优选方案,即主机电源线分组单独型、显示器电源线分组单独型、交换机集中管理型(有条件的选购堆叠式交换机),根据笔者计算,一个拥有60台学生机的机房,电源线(包括多孔插座、墙上多组空气开关)、网络线(不包括交换机的)大概需要投资1万余元,这样的投入将得到高效率的回报。
Novell网维护经验谈
现象1:服务器启动正常而有些工作站不能上网。
原因:这种情况大多数是网线接头接触不良造成的。
解决方法:如果是T型头可用一根极细的微型小锉插入接头孔内轻轻锉一下或者用一根针尖略弯的医用钢针刮一下即可,或者干脆换个新的;如是RJ-45头,大多数情况是网卡上接头孔中的钢丝弹性不足,可用镊子挟住轻轻向上拉拉。
现象2:用户在上机时乱用Send发信息干扰他人,滥用FilerFlagt等命令给管理人员的管理带来麻烦。
解决方法:将原来的Public目录改名,如改为Public1,同时关闭所有的权限,再建一个Public目录将注册正本文件Net$lig.datLogin.exeLogout.exe拷入即可。
现象3:在服务器启动过程中,突然停下来询问服务器的名称、内部网络号等,然后停下等待键入命令或死机。
原因:该现象是由于系统卷损坏造成的,Netware系统核心Server.exe装入Startup.ncf中的硬盘驱动程序后,无法从损坏的系统卷中找到Autoexec.ncf,故出现上述现象。
解决方法:在该种情况下,只能装入卷修复模块Vrepair.nlm来进行修复,装入之后,重新启动,选择“1-修复卷,然后选择要修复的卷名,系统即调用Vrepair自动将系统进行修复,检查FAT表,并对磁盘表面进行扫描,修复之后即能正常启动。
现象4:工作站没有依照逻辑方式连接在文件服务器上。屏幕显示:Error opening boot disk p_w_picpath file
原因:
1、在Netware 3.12下,SysLogin目录下的Net$dos.sysBootconf.sysNet$bind.sysNet$bval.sys文件存放的是登录数据库,登录数据库中存放用户权限、屏蔽、组等信息,如果损坏,则会出现以上错误。
2、网络没有被适当地设置或安装。
3、没有连接好电缆。
解决方法:
1、运行Vrepair.exe进行修复。
2、请重新设置工作站的网卡。
3、请检查工作站和文件服务器间的电缆连接。
网络管理五大发展方向
随着网络应用和规模的不断增加,网络管理工作越来越繁重,网络故障也频频出现:不了解网络运行状况,系统出现瓶颈;当系统出现故障后,不能及时发现、诊断;网络设备众多,配置管理非常复杂;网络安全受到威胁;ISP需要控制访问,通过流量和时间对用户计费。以前当网络出现故障时,许多企业会简单地通过再购买些服务器来解决问题,而现在可能会考虑购买网管软件来加强网络管理,以优化现有网络性能,网管软件市场开始迅速变大。
网管系统开发商针对不同的管理内容开发相应的管理软件,形成了多个网络管理发展方向。目前主要的几个开发方向有:网管系统(NMS)、应用性能管理(APM)、应用性能管理、桌面管理(DMI)、员工行为管理(EAM)、安全管理。
网管系统(NMS)
网管系统主要是针对网络设备进行监测、配置和故障诊断。主要功能有自动拓扑发现、远程配置、性能参数监测、故障诊断。网管系统主要由两类公司开发,一类是通用软件供应商,另一类是各个设备厂商。
通用软件供应商开发的NMS系统是针对各个厂商网络设备的通用网管系统,目前比较流行的有 OpenViewMicromuseConcord等网管系统。
各个设备厂商为自己产品设计的专用NMS系统对自己的产品监测、配置功能非常全面,可监测一些通用网管系统无法监测的重要性能指标,还有一些独特配置功能。但是对其它公司生产的设备基本上就无能为力了。目前比较流行的设备厂商网管软件有CiscoWorks2000NetSight,国内的LinkmanageiManager
选择时,要考虑以下因素:
网络拓扑搜索的准确率:目前许多网管系统都提供自动拓扑搜索功能,但是不同产品的网络拓扑搜索结果差别很大,目前还没有一种网络管理产品可以完全准确地搜索出所有网络设备。特别是网络比较复杂,比如跨网段、包含VLAN时,许多自动搜索工具就失效了。针对特定的网络设备,还需采用相应的网络协议,如针对Cisco设备可以采用CDP协议。
配置功能是否完善:通常设备厂商的网管系统配置功能比较完善,但只针对特定设备;通用产品配置功能相对弱一些,但通用性比较高。如果网络设备数量较少,或种类较多,各个设备厂商的产品都有,对配置功能的要求就要降低,能完成通用、简单配置就可以了,目前还没有哪家网络管理产品可以完成多个厂商的网络设备复杂设置。如果网络设备多而且网络设备基本都是一个厂商的,可以考虑购买该厂商自己的网络管理产品,一个批量修改网络设备配置的功能就可以大大减轻网络管理人员的工作量。
系统的开放性:网管系统是否能和其它网管系统集成。目前网管系统解决的问题各不相同,一个企业很可能会购买多种网管系统,这样导致一个企业内部网中也会有多套网管系统共存,如果没有开放接口,管理人员就不得不通过不同的操作台管理不同系统。
特定功能是否能满足:一些特定网络系统,对网管系统有特殊要求,如某宽带系统病毒发作时,会产生大量的小于64bytes的数据包,造成设备系统崩溃,因此该宽带网管系统要具有监测小于64bytes数据包转发率功能,而且一旦发现小于64bytes数据报转发率异常增高,能够立刻关闭网络设备。
应用性能管理(APM
应用性能管理是一个比较新的网络管理方向,主要指对企业的关键业务应用进行监测、优化,提高企业应用的可靠性和质量,保证用户得到良好的服务,降低IT总拥有成本(TCO)。一个企业的关键业务应用的性能强大,可以提高竞争力,并取得商业成功,因此,加强应用性能管理(APM)可以产生巨大商业利益。应用性能管理主要功能如下:
监测企业关键应用性能:过去,企业的IT部门在测量系统性能时,一般重点测量为最终用户提供服务的硬件组件的利用率,如CPU利用率以及通过网络传输的字节数。虽然这种方法也提供了一些宝贵的信息,但却忽视了最重要的因素——最终用户的响应时间。现在通过事务处理过程监测、模拟等手段可真实测量用户响应时间,此外还可以报告谁正在使用某一应用、该应用的使用频率以及用户所进行的事务处理过程是否成功完成。
快速定位应用系统性能故障:通过对应用系统各种组件(数据库、中间件)的监测,迅速定位系统故障,如发生Oracle数据库死锁等问题。
优化系统性能:精确分析系统各个组件占用系统资源情况,中间件、数据库执行效率,根据应用系统性能要求提出专家建议,保证应用在整个寿命周期内使用的系统资源要求最少,节约TCO
目前市场上比较流行的应用性能管理产品有BMCTivoli Application Performance
ManagementVERITAS(precise)i3系列产品、Quest系列产品、Topaz。国内主要是SiteView产品。
选择时,要考虑以下因素:
应用系统可监测性:Tivoli Application Performance Management采用APM技术监测应用性能,这要求被监测系统必须支持APM API。目前OracleSAPWebLogic等国外公司产品都支持APM API,但国内企业开发系统可能就不支持该API
扩展性:应用系统的变化是非常快的,因此应用性能管理系统的扩展性非常重要,如随着数据量增加,数据库从SQL Server升级到Oracle,应用性能管理系统要可以动态增加监测Oracle数据库组件,而不需要升级整个应用性能管理系统。
易用、可自学习的故障诊断工具:应用系统的故障诊断比NMS系统的诊断更加复杂,它不仅要分析网络性能、系统资源,而且要分析系统设置、应用程序效率。一个良好的系统诊断工具是非常重要的,故障诊断工具并不一定是一个全自动的智能系统,因为一个全自动的智能故障推理系统开发难度极高,会造成软件价格急剧攀升,它可以是一个半自动系统,但是要有自学习功能。
桌面管理系统(DMI
桌面管理环境是由最终用户的电脑组成,这些电脑运行WindowsMAC等系统。桌面管理是对计算机及其组件管理,内容比较多,目前主要关注在资产管理、软件派送和远程控制。桌面管理系统通过以上功能,一方面减少了网管员的劳动强度,另一方面增加系统维护的准确性、及时性。这类系统通常分为两部份——管理端和客户端。
目前市场上比较流行的国外桌面管理系统有CA UnicenterLandesk,国内的NetInhandLANDesk Management Suite 7是目前比较流行的桌面管理系统。
选择时,要考虑以下因素:
用户自身管理模式:桌面管理系统需要在每台被管理客户机上安装Agent,网络管理人员可以远程控制被监测客户机,这涉及到一些客户的隐私问题。因此用户在购买产品之前最好首先考虑自身的管理模式是否能支持网管软件的使用。
支持的操作系统种类:桌面管理系统的Agent要求能够支持企业中所有操作系统。当某种操作系统设备数量较少时,出于节约软件购买成本的角度,也可以考虑购买只支持企业主流操作系统的桌面管理系统。
网络带宽占用情况:远程控制、软件派送等网络功能传递的数据量大,很可能造成数据传输的阻塞,因此桌面管理系统必须有数据压缩功能,减少带宽占用。
员工行为管理(EAM)
员工行为管理包括两部份,一部分是员工网上行为管理(EIM),另一部分是员工桌面行为监测。目前国际上WebSense软件市场占有率较高,国内深澜公司也推出了类似产品NetManageWebSense可以与许多网络产品集成。它一般在Internet应用层、网络层对信息控制,对数据根据EIM数据库进行过滤;定制因特网访问策略,根据用户、团组、部门、工作站或网络设置不同的因特网访问策略。它还有一个专门的报表工具Websense EIM Reporting Tools
选择该类产品时应考虑以下问题:
管理规模、软件效率:EMI系统需要对所有Internet数据进行分析,随着网络规模增大,数据量显著增加, EMI系统的软件效率可能会下降,变成网络瓶颈。
报告质量:EMI系统的报告采集了海量数据,如何让管理者从海量数据中了解总体员工上网情况、迅速发现员工异常行为十分关键。
设置灵活性:系统是否可以根据企业需求对员工上网从个人、部门等角度灵活设置上网策略。用户在购买产品之前最好独立或与厂家合作设计一套管理策略,然后监测产品是否能够满足需求。
安全管理
网络安全管理指保障合法用户对资源安全访问,防止并杜绝黑客蓄意攻击和破坏。它包括授权设施、访问控制、加密及密钥管理、认证和安全日志记录等功能。目前市场上的防火墙产品和IDS产品很多,防火墙有Check PointNetScreemCisco PIX等。IDSISS公司的RealSecureAxentITAESM,以及NAICyberCopMonitor等。在选择产品时可以考虑以下方面:
系统自身性能稳定,系统协议分析检测能力及解码速率、系统升级服务等。