如果数据库全局性HANG,首先要做的是收集数据库HANG时的状态,只有收集到了相应状态,抓住故障现场,才可以进一步分析故障产生的可能原因。
如果数据库是单节点,使用sqlplus连接数据库后执行如下命令:
SQL> oradebug hanganalyze 3
Hang Analysis in /u01/app/oracle/diag/rdbms/orcl/orcl/trace/orcl_ora_7700.trc
等待一分钟左右,观察进程状态是否有变化,再次执行上面命令。
然后开启另一会话,DUMP系统状态
[oracle@localhost ~]$ sqlplus / as sysdba
SQL*Plus: Release 11.2.0.1.0 Production on Thu Jan 17 21:25:32 2019
Copyright (c) 1982, 2009, Oracle. All rights reserved.
Connected to:
Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 - 64bit Production
With the Partitioning, OLAP, Data Mining and Real Application Testing options
SQL> oradebug setmypid
Statement processed.
SQL> oradebug unlimit
Statement processed.
SQL> oradebug dump systemstate 266
Statement processed.
SQL> oradebug dump systemstate 266
Statement processed.
如果数据库是RAC系统,则执行下面命令
SQL> oradebug setmypid
SQL> oradebug unlimit
SQL> oradebug -g all hanganalyze 3
wait for 30 seconds
SQL> oradebug -g all hanganalyze 3
SQL> exit
开启另一会话,DUMP系统状态
SQL> oradebug setmypid
SQL> oradebug unlimit
SQL> oradebug -g all dump systemstate 10
wait for 30 seconds
SQL> oradebug -g all dump systemstate 10
SQL> oradebug tracefile_name
SQL> exit
Oracle HANG后可能会导致sqlplus无法连接至数据库,从而无法获得oracle系统和进程的状态,这会使定位问题时缺少强有力的依据。
在oracle 10g的sqlplus中增加了-prelim
选项,当数据库HANG时使用该选项依然能够连接至数据库中,从而能获得数据库的状态。使用方法
sqlplus -prelim "/ as sysdba"
使用prelim模式连接至数据库后,不可以查询数据字典,但可以关闭数据库。
当oracle系统HANG住,无法使用一切方法登录时(包括sqlplus -prelim / as sysdba),可以使用gdb调试工具来对oracle做系统DUMP,然后就可通过系统的DUMP信息来判断HANG的具体原因了。