王茂材 数据和云

墨墨导读:最近处理了几次undo相关问题,将undo暴增后查询思路整理分享至此。

最近处理了几次undo相关问题,将undo暴增后查询思路整理如下:

  • 查询active状态的使用空间
  • 确认使用的详细情况,比如占用高的sid与sql,以及是否存在死事务
  • 应急处理方法

1. 查询undo active使用状态


select tablespace_name, status, round( sum( bytes ) / 1048576, 2 ) mb,
count(*) extent_count
from dba_undo_extents
group by tablespace_name, status
order by tablespace_name, status;

TABLESPACE_NAME      STATUS                MB EXTENT_COUNT

-------------------- ------------ ----------- ------------

UNDOTBS1             ACTIVE           17.13          19  --主要关注活动部分

UNDOTBS1             EXPIRED          15.25          64

UNDOTBS1             UNEXPIRED         8.19          11

UNEXPIRED已经释放,在保留期内。无需手动处理,在undo表空间紧张时,undo会自动调整undo保留期的,参考如下:


select to_char(begin_time, 'hh24:mi:ss') BEGIN_TIME,
to_char(end_time, 'hh24:mi:ss') END_TIME,
maxquerylen,
nospaceerrcnt,
tuned_undoretention
from v$undostat;

BEGIN_TI END_TIME MAXQUERYLEN NOSPACEERRCNT TUNED_UNDORETENTION

-------- -------- ----------- ------------- -------------------

17:37:31 17:43:00        1281           0                2062

17:27:31 17:37:31        978            0                1759

17:17:31 17:27:31        372            0                1153

17:07:31 17:17:31        974            0                1755

16:57:31 17:07:31        368            0                1151

16:47:31 16:57:31        968            0                1809

16:37:31 16:47:31        363            0                1205

16:27:31 16:37:31        961            0                1805

16:17:31 16:27:31        358            0                1200

16:07:31 16:17:31        957            0                1799

15:57:31 16:07:31        353            0                1195

15:47:31 15:57:31        953            0                1794

15:37:31 15:47:31        349            0                1190

15:27:31 15:37:31        948            0                1790

15:17:31 15:27:31        342            0                1185

最后一列就是undo的保留期,可以看到会根据使用情况自动调整。

2. 确认占用的sid与使用大小


select s.sid, substr( s.program, 1, 15 ) program,
  s.machine,
  t.xidusn || '.' || t.xidslot || '.' || t.xidsqn tx_addr,
  t.status, t.start_time, tbs.tablespace_name tbs_name,
  round( t.used_ublk * tbs.block_size /1048576, 2 ) undo_size_mb,
  t.used_urec
from v$transaction t, v$session s, v$parameter p, dba_tablespaces tbs
where t.ses_addr = s.saddr
  and p.name = 'undo_tablespace' 
  and p.value = tbs.tablespace_name
order by t.used_ublk desc;


  SID PROGRAM        MACHINE          TX_ADDR      STATUS    START_TIME        TBS_NAME    UNDO_SIZE_MB  USED_UREC


----- --------------- ---------------- ------------- ---------- ------------------ ------------ ------------ ----------


1 sqlplus@localho localhost.localdomain 7.31.582      ACTIVE    02/03/20 11:09:45  UNDOTBS1            15.84    199906

Active总共17M,SQLPLUS就占用了15.85M。

3. 确认占用sql


SELECT S.SID,
        S.USERNAME,
        U.NAME,
        Q.SQL_TEXT,
        Q.HASH_VALUE,
        T.UBABLK
    FROM V$TRANSACTION T,
        V$ROLLSTAT R,
        V$ROLLNAME U,
        V$SESSION S,
        V$SQL Q
  WHERE    S.TADDR = T.ADDR
        AND T.XIDUSN = R.USN
        AND R.USN = U.USN
        AND Q.HASH_VALUE =
                DECODE(S.SQL_HASH_VALUE,
                        NULL, S.PREV_HASH_VALUE,
                        S.SQL_HASH_VALUE)
ORDER BY S.USERNAME;

  SID USERNAME        NAME                          SQL_TEXT                                HASH_VALUE    UBABLK
----- --------------- ------------------------------ ---------------------------------------- ---------- ----------
1 SYS            _SYSSMU7_831131319$            update t1 set id=9                        71029355      5213

本次模拟对一张10w数据的表进行update。通过以上信息可以看到,sys用户通过本地sqlplus登陆,执行updata语句。

但有时候会发现,明明active的空间已经很大,但是v$transaction却查不到,需要关注死事务的产生。

4. 死事务的查询

http://blog.itpub.net/22034023/viewspace-710505/

死事务出现在异常关闭数据库或者事务进程不正常结束,比如KILL -9,shutdown abort的情况下。即使是DBA也只能等待smon清理完成,没有好的办法。当然禁用smon这种方法,如:


oradebug setorapid 'SMON's Oracle PID';
oradebug event 10513 trace name context forever, level 2

这种在生产中绝对是谨慎谨慎,除非有着非常深入的理解和实践。

当前数据库里的死事务可以通过查询内部表x$ktuxe来获得。


select ADDR,KTUXEUSN,KTUXESLT,KTUXESQN,KTUXESIZ from x$ktuxe where KTUXECFL='DEAD';


ADDR               KTUXEUSN   KTUXESLT   KTUXESQN   KTUXESIZ
---------------- ---------- ---------- ---------- ----------
00002B92FF5D5F68         15         12     314961      43611

KTUXESIZ代表需要回滚的回滚块数。

死事务的回滚进程数可以通过参数fast_start_parallel_rollback来设置。

可以根据以下算法来粗略的估算回滚需要的时间,这里是小时:


declare
  l_start number;
  l_end   number;
begin
  select ktuxesiz
    into l_start
    from x$ktuxe
   where KTUXEUSN = 10
     and KTUXESLT = 39; ---------这里根据实际数字来填写
  dbms_lock.sleep(60);  ---------可以缩小这个时间,但是太小,可能会导致误差较大
  select ktuxesiz
    into l_end
    from x$ktuxe
   where KTUXEUSN = 10
     and KTUXESLT = 39; ---------这里根据实际数字来填写
  dbms_output.put_line('time cost Day:' ||
                       round(l_end / (l_start - l_end) / 60, 2));
end;
/

5. 应急处理

  • 如果占用undo高的是执行不合适的sql导致,那么可以临时kill掉。事后也可以让开发针对sql的提交方式进行优化。
  • 如果是死事务,只能通过上述方法进行计算时间。无法手工干预。
  • 如果应急期间定位不到具体问题,那最紧要的就是扩容undo表空间,确保生产事务正常运行。

作者

王茂材,云和恩墨技术顾问,从事Oracle DBA工作5年,维护过200+ 套Oracle数据库,涉及能源、医疗、体彩、银行、运营商等行业数据库的维护和操作。对Oracle数据库具备扎实的理论基础与丰富的实践经验,擅长故障处理、迁移、备份恢复、SQL优化等。

墨天轮原文链接:https://www.modb.pro/db/45680(复制到浏览器打开或者点击“阅读原文”立即查看)