俗话说,运维工程师三件宝,重启,重装,换电脑。这三件百试不爽的法宝有时候也手背不灵光的时候,那个时候呀真是欲哭无泪。以下分别谈一谈我或我身份同事发生的事。这三件事有的并不是直接发生在我身份的,但确实我亲眼所见或同事亲述,但是为了保护同事的隐私,以下全部用第一人称讲述,有人不甘不挤兑胖胖不爽的人会说,胖胖,别瞎扯,不就是你自己亲身经历的事嘛,还嫁祸到别人头上,那好吧,就算是我亲身经历的好了。

一、囧事之重启篇

     某生产系统进行硬件扩容,要将32GB的物理内存扩展到64GB,因为是生产环境,LINUX系统所以停机时间不能太长。虽然内存支持热插拔,但是经过和同事一致讨论,领导的拍板,热插拔不靠谱,停机安装。扩容过程本来是无比简单的。首先去机房找到该台服务器,然后确认,对方远程关闭计算机(实际控制使用这台计算机的权限在其它部分同事手中)然后将计算机下架,打开机箱盖,由厂商负责插入新内存,开机启动 ,观察BIOS信息内存情况,OK完成。简单的吧,与其说是关机,就不如算一个略长时间的重启。结果人手背的时候,没法说呀。因为是远程关闭计算机,到达现场后我立刻找到了该台计算机,并确认(其实扩容是二台)然后电话远程关闭计算机。然后将计算机下架,扩展内存,开机检查BIOS信息,第一台正常,OK。关机上架。然后如法炮制第二台,检查内存信息,OK,本以为打完收工。然后上架,开机,结果悲催的事情就发生了。因为这台机器是LINUX系统,已经N年没重启了,所以这次关机后开机,竟然无法正常引导操作系统了,一个劲的报错,提示文件系统损坏。当时汗马上就下来了。马上进入单引导模式,开始尝试手动修复文件系统。结果就是人背喝凉水都塞牙。文件系统修复失败。糟糕的是,因为是个很简单的操作,远程的同事不知道情况,一个劲的催完成没有,所以就是越催越急,一时也没有了头绪。离预计时间已经超过20分钟了,还没有个头绪,当时脸都绿了。还有公司的一个更有经验的同事电话联系问情况,没办法实话实说吧。因为无法引导系统,只能手机拍照,然后存到自己随身携带的笔记本上,然后把图发给同事分析判断,指导操作。好在老天不饿死瞎家雀,最后在超过预计2小时10分的时候,终于将系统成功引导了。当年挨批是免不了的了。事后经过大家的事故分析,问题出在因为这台机器常年没有关机,系统在关机的时候比较慢,数据由内存写入硬盘的时间超过了自己的预期。因为第一台成功完成后得意忘形,没有连接本地显示器查看关机情况,系统并没有造成正常的关机,在数据从内存写入硬盘的时候非法关机了,最后造成文件系统挂掉了。这个事件告诉我们,很多时候沟通是关键,做事的要做到事无巨细。

 

二、囧事之重装篇

(未完,待续)