前言:
最近经常碰到死锁问题,由于对这块代码不是很熟悉,而常持有对文档怀疑的观点。决定从几个死锁问题着手,好好把Innodb锁系统的代码过一遍。
以下的内容不敢保证完全正确。只是我系统学习的过程。
///
最近有同学发现,走二级索引删除数据时,两条delete出现死锁。
我们可以保证二级索引记录是唯一的,按理说回表查到的主键记录不可能相同。死锁的现象如下所示:
*** (1) TRANSACTION:
TRANSACTION 1E7D49CDD, ACTIVE 69 sec fetching rows
mysql tables in use 1, locked 1
LOCK WAIT 4 lock struct(s), heap size 1248, 4 row lock(s), undo log entries 1
MySQL thread id 1385867, OS thread handle 0x7fcebd956700, query id 837909262 10.246.145.78 im_mobile updating
delete from offmsg_0007 WHERE target_id = ‘Y25oaHVwYW7mmZbmmZblpKnkvb8=’ and gmt_modified <= ‘2012-12-14 15:07:14′
*** (1) WAITING FOR THIS LOCK TO BE GRANTED:
RECORD LOCKS space id 203 page no 475912 n bits 88
*** (2) TRANSACTION:
TRANSACTION 1E7CE0399, ACTIVE 1222 sec fetching rows, thread declared inside InnoDB 272
mysql tables in use 1, locked 1
1346429 lock struct(s), heap size 119896504, 11973543 row lock(s), undo log entries 1
MySQL thread id 1090268, OS thread handle 0x7fcebf48c700, query id 837483530 10.246.145.78 im_mobile updating
delete from offmsg_0007 WHERE target_id = ‘Y25oaHVwYW7niLHkuZ3kuYU5OQ==’ and gmt_modified <= ‘2012-12-14 14:13:28′
*** (2) HOLDS THE LOCK(S):
RECORD LOCKS space id 203 page no 475912 n bits 88 index `PRIMARY` of table `im_mobile`.`offmsg_0007` trx id 1E7CE0399 lock_mode X
*** (2) WAITING FOR THIS LOCK TO BE GRANTED:
RECORD LOCKS space id 203 page no 1611099 n bits 88
简单的介绍下死锁信息中所代表的含义,及对应变量(死锁日志在函数lock_deadlock_recursive中打印):
–>TRANSACTION 1E7D49CDD, ACTIVE 69 sec fetching rows
事务活跃了69秒,事务状态为fetching rows
“fetching rows”事务状态在row_search_for_mysql中被设置,表示正在查找记录。
如果已经真正进入了Update/delete的函数逻辑(row_update_for_mysql),则状态为”updating or deleting”
该事务不在innodb层(没有thread declared inside InnoDB),十有八九被suspend了发现死锁,选为牺牲者 :-(.
–>mysql tables in use 1, locked 1
in use 1有一个表被使用(trx->n_mysql_tables_in_use) ,在函数ha_innobase::external_lock中trx->n_mysql_tables_in_use被递增。
locked 1表示表上有一个表锁(加锁函数为lock_table,trx->mysql_n_tables_locked),对于DML语句为LOCK_IX
–>LOCK WAIT 4 lock struct(s), heap size 1248, 4 row lock(s), undo log entries 1
LOCK WAIT表示正在等待锁(trx->que_state)
4 lock struct(s) 表示trx->trx_locks锁链表的长度为4,每个链表节点代表该事务持有的一个锁结构,包括表锁,记录锁以及autoinc锁等。
heap size 1248表示事务分配的锁堆内存大小(trx->lock_heap),trx->trx_locks链表节点内存都从这个堆中分配。
4 row lock(s)表示当前事务持有的行记录锁个数,调用函数lock_number_of_rows_locked遍历trx->try_locks,找出其中类型为LOCK_REC的记录数。
注意,由于函数lock_number_of_rows_locked采用遍历的方式,因此在执行类似show engine innodb status时,可能产生大量的CPU时间片消耗,我们在生产环境曾经观察到该函数占用50%以上的时间片。
undo log entries 1表示当前只有一个Undo log记录,说明实际更新了一条聚集索引记录(二级索引不记undo)
–>RECORD LOCKS space id 203 page no 475912 n bits 88
等待/持有的锁记录,RECORD LOCKS表示记录锁,space id 为203(对应的是聚集索引),page号为475912
n bits 88表示这个聚集索引记录锁结构上留有88个Bit位(lock_rec_get_n_bits(lock), lock->un_member.rec_lock.n_bits),n_bits表示锁bitmap的bit数,该page上的记录数+64
id为1E7D49CDD的事务占有这个锁。
lock_mode X表示该记录锁为排他锁:lock->type_mode & LOCK_MODE_MASK
其他还有:
” locks gap before rec”表示为gap锁:lock->type_mode & LOCK_GAP
” locks rec but not gap”表示为记录锁,非gap锁:lock->type_mode & LOCK_REC_NOT_GAP
” insert intention”表示为插入意向锁:lock->type_mode & LOCK_INSERT_INTENTION
“ waiting” 表示锁等待:lock->type_mode & LOCK_WAIT
上面这几种非记录锁在什么时候加,对事务并发又有什么影响呢? 下回分解。。。。