一台生产业务的虚拟机假死,强行关机后无法POWER ON。在启动时报虚拟机文件被锁定,错误信息如下:

wKioL1cFGoSjktRWAABOEU8Tlk8300.jpg


此时对虚机进行迁移、快照等,发现操作不可用。查看虚机状态,发现其在集群内的三台物理主机上来回飘。


解决方法:

  1、首先将cluster中的HA功能关闭。如果该功能不关闭,容易造成死锁,,VM不断跳动,,不断的在不同的ESXI内循环被锁,徒劳而无功。

  2、虚机磁盘文件被锁,必须要知道到底是哪台ESXI把他给锁住了,这是关键。  

 3、在VCenter中,把被锁的VM从Inventory中remove掉。原因很简单,这是一个 unregister的过程。找到目标主机后,当然是杀死他锁住VM的进程。之所以会被锁,原因就是HA 把VM从别的HOST迁移过来,但是又没有unregister和register的过程,所以在你查看VM的Summary的时候,host ip还是属于出问题的 host。 但是VM又被新的host强行power on,这样自然不能启动。


操作步骤:

  1、SHELL命令行登陆虚机所在的物理主机ESXI(或登陆集群内的所有物理主机,以确定在哪个主机上)

    使用如下命令查看虚机文件是否被锁定。

# vmkfstools -D /vmfs/volumes/UUID/VMDIR/LOCKEDFILE.xxx(虚机名称)

wKiom1cFJVizuXZPAADpewxwSeA446.jpg



2、使用如下命令查找虚机进程

#ps | grep ruixin (KILL终止)

# esxcli vm process list

(# esxcli vm process kill --type=hard --world-id=xxxxx 终止)


如果上述命令可以找到虚机被锁的进程ID,则终止该虚机进程,释放锁。


3、如上述命令没找到,还可以使用如下命令来找

# vmkvsitools lsof | grep Virtual_Machine_Name

wKioL1cFJ7fxE3IcAAEKfFfWvyA551.jpg



使用kill -9 PID结束进程。至此文件锁定被解除。 

wKioL1cHCqWgFpSTAACvwq5gHUU622.jpg

补充:

  在虚拟机所在主机用touch命令,也可锁定解除

touch.png


解除文件锁定后,登录vcenter,从清单移除原虚机名称(备注:虚机关机了,这时还可能看到虚机在集群中不同主机上跳跃注册,需要从清单中移除可能多次,名称为UNKNOWN的样子,中间添加清单会出现“使用相同名称的虚拟机或模板已被注册”,继续移除UNKNOWN样子的名称,直至最后不出现错误提示,再最后从存储中成功添加虚机的VMX,启动时注意选择“移动至”不要使用“复制至”)。在存储器里用vmx添加虚机到清单后开机成功。

  ssss.png


    ssss2.png



备注补充:

文件锁定的目的

为了防止并行更改关键虚拟机文件和文件系统,ESXi/ESX 主机对这些文件建立了锁定。在某些情况下,即使关闭虚拟机的电源,这些锁定也不会解除。文件锁定后,服务器将无法访问这些文件,并且将无法打开虚拟机的电源。

这些虚拟机文件通常在运行时期间锁定:

  • VMNAME.vswp

  • DISKNAME-flat.vmdk

  • DISKNAME-ITERATION-delta.vmdk

  • VMNAME.vmx

  • VMNAME.vmxf

  • vmware.log


确定文件是否正在由正在运行的虚拟机使用

如果文件正在由正在运行的虚拟机访问,则无法强夺或移除该锁定。可能持有该锁定的主机正在运行虚拟机且变得无响应,或者另一台正在运行的虚拟机在尝试打开电源前错误地将磁盘添加到了其配置中。

要确定虚拟机进程是否正在运行,请执行以下操作:

  1. 确定是否已在主机上注册虚拟机,为此请以 root 用户身份运行以下命令:

    # vim-cmd vmsvc/getallvms


    注意:输出内容会列出每个已注册虚拟机的 vmid。请记录此信息,因为在 ESXi 服务器上此过程的其余部分将需要此信息。

  2. 在主机上访问虚拟机的当前状态,运行以下命令:

    # vim-cmd vmsvc/power.getstate vmid


另外还要注意SWAP文件

在 VM 启动时会自动生成SWAP,没有SWAP文件,其实就是因为 SWAP 存在了, 因为重名而导致无法正常生成。

进入到/vmfs/volumes/lunid/vm_path/下,vmkfs -d virtual_machine.vswp 或者进入Datastore Browser,在里面把SWAP文件删除也可。重新注册VM。进入Datastore Browser,找到VM.vmx,add to inventory。启动VM正常。