Dell R720 是很老的服务器了,几年前在淘宝店买的,现在购物记录都找不到了。好在还留了个工程师的微信。不是专业人士,干活难免遗漏。
用了几年,还算稳定,园区突发停电的时候出过故障,重启也能恢复。电源出过一次故障,双电源,换一个也正常了。近期公司搬家。没包装好,估计震到机器了。内存松动了吧。我还在休假的时候同事(其实他才是兼职网管)给我打电话说服务器启动不了。看问题描述应该是 内存故障了。
昨天收假后第一天上班,割伤了手,懒得动。今天想着,我的redmine,svn服务器,都在上面,公司ISO审查,也得看虚拟机的管理记录。还是得动啊,网管是靠不住了,只有自己动手。先把外设接起来看下具体故障吧。新买的小机柜,似乎矮了点。
打开机箱看了下,内存部分看不出什么,感觉压的也挺紧的,都卡住了。不知道同事动没动。服务器的液晶屏显示的是memory error
关上机箱盖板,重启后,停住了。
但我仔细看了下系统启动过程中的提示信息
初步判断,系统是检测到了全部的内存了。64GB,没错了。
提示的似乎是上一次系统启动的错误。
进lifecycle controller看了下。(一张图片死活传不上去啊),运行hardware diagnostics,结束后重启。
奇迹出现了。系统自检好像过了。虽然服务器的液晶屏上面还是显示memory error。进入了vmware hypervisor,松口气了。要是万一要动内存,麻烦了。等了几分钟,终于跑到终点。。。。
进VMware workstation,正常。还剩下一台虚拟机,外网访问不了。明天继续。
续集:
搞半天,外网上不了是有人给禁用了。简直意料之外。到现在为止,外网是开通了。域名不给在路由器里配置,有啥用?那几天暴躁的不行,觉得自己遇到白痴,解释都解释不通。
修复完成后,周末虚拟机又挂了一次,周一过来,还是内存问题,自检已经变成了56GB了。把B3插槽跟B4互换,B3还是报错的。重启自检了几次,目前跑了一周多,基本算稳定了。打算再出问题,先把B3拔掉试试吧。期间也查了dell官网与VMware官网的一些资料,不能说都看懂了。起码对我遇到的问题这块有所了解了。记忆力实在不行,靠烂笔头凑吧。