大半夜收到此类信息,应该是让所有系统管理员最头大的事情了


windows蓝屏分析


首先我快速通过iDRAC,发现服务器发生了重启操作,并得到相关日志信息


windows蓝屏分析


通过Dell的官方解释,确定了该问题是OS层面的异常导致。打开Windows Event Log,使用时间&严重程度进行筛选,我们发现了如下信息:


windows蓝屏分析


由此,我猜测此次事故由于0x7a类型的蓝屏错误导致!为了证实这种猜想以及继续分析根本原因,借助Microsoft提供的Debug工具对DUMP文件进行分析,内容如下:


windows蓝屏分析


通过初步bugcheck,基本确定了我的猜测,再结合call stack信息


windows蓝屏分析


可以判断是因为某个分区被移除导致,接下来再进行深度分析来判断是哪块分区被移除以及被移除的原因;

得到如下两条重要信息:

1、Corruption may occur in VolumeId: C:
2、错误值: C000000E、磁盘类型: 0

以此确定C盘发生了状态码为0xC000000E的错误,导致此次事件!
结合Microsoft提供的状态码说明


windows蓝屏分析


可以很明确的判断是由于硬件及驱动问题导致(为什么iDRAC没有相关报错???)
最后向Dell提交case,建议对raid卡及磁盘控制器进行升级,希望能彻底解决此问题!

两点相关话题
1、可以使用Chkdsk命令对系统分区进行检查,具体命令Chkdsk / f / r c:
2、病毒同样可以引起蓝屏,除了杀毒软件,我们还可以通过Local Security Authority Process=lsass.exe的启动位置 来分析,正常情况下,他是由C:\Windows\System32启动