现象

内核中出现下面的消息: pcie04: Card not present on Slot

我是如何发现一块NVME SSD 盘从系统中消失的

排查过程

确认哪个PCIE slot

lspci -vvvv -s 0000:ac:00.0 看看是什么PCI bus:
我是如何发现一块NVME SSD 盘从系统中消失的

看看它下挂什么设备

在异常的节点上看看:

我是如何发现一块NVME SSD 盘从系统中消失的

在正常的同类型节点上看它挂载什么设备

我是如何发现一块NVME SSD 盘从系统中消失的

确认它是什么设备

lspci -vvvv -s af:00.0

我是如何发现一块NVME SSD 盘从系统中消失的

可以看到这个是NVME controller , 显然是挂的是一块NVME 盘。后面通过在正常、异常节点上 比较mount/fdisk -l 的输出,确认异常节点上确实少一块盘。

总结

当我们碰到内核中异常PCIE 的信息的时候,需要结合PCIE 拓扑结构,定位到具体PCIE卡设备,确认其类型,然后通过系统命令确认。