死锁的概念

  死锁是指两个或者两个以上的事务在执行过程中,因争夺锁资源而造成的一种互相等待的现象。

  解决死锁问题最简单的一种方法是超时,即当两个事务互相等待时,当一个等待时间超过设置的某一阀值时,其中一个事务进行回滚,另一个等待的事务就能继续进行。在InnoDB存储引擎中,参数Innodb_lock_wait_timeout用来设置超时的时间

  超时机制虽然简单,但是其仅通过超时后对事务进行回滚的方式来处理,或者说其是根据FIFO的顺序选择回滚事务。但若超时的事务所占权重比较大,如事务更新了很多行,占用了较多的undo log ,这时采用FIFO的方式,就显得不合适了,因为回滚这个事务的时间相对于另一个事务所占的时间可能会很多。

  因此除了超时机制,当前数据库还都普遍采用wait-for graph(等待图)的方式来进行死锁检测。较之前超时的解决方案,这是一种更为主动的死锁检测方法。InnoDB存储引擎也采用这种方式。

  wait-for graph要求数据库保存以下两种信息: 锁的信息链表,事务等待链表

  在图中,事务T1指向T2 的定义为:

    事务T1 等待事务T2所占用的资源

    事务T1 最终等待T2 所占用的资源,也就是事务之间在等待相同的资源,而事务T1发生在事务T2的后面

mysql 事件锁表 mysql事物死锁_死锁

 

 

 

mysql 事件锁表 mysql事物死锁_回滚_02

 

 

 由此,可以发现wait-for graph是一种较为主动的死锁检测机制,在每个事务请求锁并发生等待时都会判断是否存在回路,若存在则有死锁,通常来说InnoDB存储引擎选择回滚undo量最小的事务。

死锁的概率

  假设当前数据库中共有 n+1 个线程执行,即当前总共有n+1个事务。并假设每个事务所做的操作相同。

  若每个事务由r+1 个操作组成,每个操作作为从R行数据中随机地操作一行数据,并占用对象的锁。

  每个事务在执行完最后一个步骤释放所占用的所有锁资源。

  最后假设 nr << R,即线程操作的数据只占所有数据的一小部分。

  在上述的模型下,事务获取一个锁需要等待的概率是多少?当事务获得一个锁,其他任何一个事务获得锁的情况为:

        (1+2+3+....+r)/(r+1) ≈ r/2

  由于每个操作为从R行数据中取一条数据, 每行数据被取到的概率为1/R ,因此,事务中每个操作需要等待的概率PW为:

          PW = nr/2R

  事务是由r个操作所组成,因此事务发生等待的概率PW(T)为:

           PW(T) = 1-(1-PW)≈ r*PW ≈  nr² / 2R

  死锁是由于产生回路,也就是事务互相等待而发生的,若死锁的长度为2 ,即两个等待节点间发生死锁,那么其概率为:

             一个事务发生死锁的概率 ≈  PW(T)² /n ≈  nr4 / 4R2

  由于大部分死锁发生的长度为2,因此上述公式基本代表了一个事务发生死锁的概率因此,任何一个事务发生死锁的概率为:

            系统中任何一个事务发生死锁的概率  ≈  n²r/ 4R2

同时,事务发生死锁的概率与以下几点因素有关:

系统中事务的数量 (n),数量越多发生死锁的概率越大

    每个事务操作的数量(r),每个事务操作的数量越多,发生死锁的概率越大

    操作数据的集合(R),越小则发生死锁的概率越大

死锁示例

如果程序是串行的,那么不可能发生死锁。死锁只存在与并发的情况,而数据库本身就是一个并发运行的程序,因此可能发生死锁。

时间

会话A

会话B

1

begin;

 

2

mysql> select * from test.t where a =1 for update;
+---+
| a |
+---+
| 1 |
+---+
1 row in set

gegin;

3

 

mysql> select * from test.t where a = 2 for update;
+---+
| a |
+---+
| 2 |
+---+
1 row in set

4

mysql> select * from test.t where a =2 for update;

 

5

 

mysql> select * from test.t where a = 1 for update;
1213 - Deadlock found when trying to get lock; try restarting transaction

6

+---+

| a |

+---+

| 2 |

+---+

1 row in set

 

  会话B事务抛出1213这个错误提示,即表示事务发生了死锁,死锁的原因是会话A和B的资源在互相等待。

  会话B中的事务抛出死锁异常后,会话A中马上得到了记录为2 的这个资源,这其实是因为会话B中的事务发生了回滚,否则会话A中的事务是不可能得到资源的。

    InnoDB存储引擎并不会回滚大部分的错误异常,但是死锁除外。发现死锁后,InnoDB存储引擎会马上回滚一个事务。因此如果在应用程序中捕获了1213这个错误,其实并不需要对其进行回滚。

但是在等待队列中存在一个S锁的请求,则可能发生死锁。

  

时间

会话A

会话B

            1

begin

 

            2

 

begin

            3

select * from t where a = 4 for update

 

            4

 

select * from t where a <= 4 lock in share mode;

等待

            5

insert into t value (3);

error 1213 deadlock found when trying to get lock;try restarting transaction

 

            6

 

事务获得锁,继续执行

  可以看到,会话A已经对记录4持有了X锁,但是会话A中插入记录3时会导致死锁的发生。

  这个问题的产生是由于会话B中请求记录4的S锁而发生等待,但之前请求的锁对于主键值记录 1、2都已经成功,若在事件点3能插入记录,那么会话B在获得记录4持有的S锁后,还需要向后获取记录3的记录,这样就显得优点不合理。因此InnoDB存储引擎在这里主动选择了死锁,而回滚的是undo log记录大的事务,这与AB-BA死锁的处理又有所不同。