文章目录
- 02|MySQL的日志系统。
- 日志模块
- redo log
- binlog
- 两种日志的不同:
- 执行器和InnoDB引擎在执行简单的update语句时的内部流程.
- 两阶段提交
- 小结
02|MySQL的日志系统。
日志模块
redo log
- MySQL中的WAL技术,Write-Ahead Logging,它的关键点就是先写日志,再写磁盘。
- 当一条记录需要更新的时候。
- InnoDB先把记录写道redo log里面。并更新内存。
- InnoDB引擎会在适当的时候,将这个操作记录更新到磁盘里面,这个更新是在系统空闲的时候做。
- InnDB的redo log是固定大小的,比如可以配置为一组4各文件,每个文件的大小是1GB。从头开始写,写到末尾就又回到开头循环写,如下图。
- write pos 是当前记录的位置,一边写一边后移,写到第3号文件末尾后就回到0号文件开头。
- checkpoint是当前要擦除的位置,也是往后推移并且循环的,擦除记录前要把记录更新到数据文件。
- write pos和checkpoint之间的是“粉板”上还空着的部分,可以用来记录新的操作。
- 如果write pos追上checkpoiont,表示记录已经满了,这时候不能再执行新的更新,需要停下来先擦除一些记录,把checkpoint推进一下。
- 有了redo log,InnoDB就可以保证及时数据库发生异常重启,之前提交的记录都不会丢失,这个能力成为crash-safe
binlog
- Mysql总共分为server层和引擎层,redo log是InnoDB引擎特有的日志。
- server层又自己的日志,称为binlog(归档日志)。
- Binlog有两种模式,statement 格式的话是记sql语句, row格式会记录行的内容,记两条,更新前和更新后都有。
两种日志的不同:
- redo log是InnoDB引擎特有的;binlog是MySQL的server层实现的,所有引擎都可以使用。
- redo log是物理日志,记录的"在某个数据也上做了什么修改";binlog是逻辑日志,记录的是这个语句的原始逻辑,比如“给ID = 2 这一行的c字段加1”"。
- redo log是循环写的,空间固定会用完;binlog是可以追加写入的。“追加写”是指binlog文件写到一定大小后会切换到下一个,并不会覆盖以前的日志。
执行器和InnoDB引擎在执行简单的update语句时的内部流程.
create table T(ID int primary key, c int);
将ID = 2这一行的值加1,SQL语句
update T set c=c+1 where ID=2;
- 执行器先找引擎取ID=2这一行。ID是主键,引擎直接用树搜索找到这一行,如果ID=2这一行所在的数据页本来就在内存中,就直接返回给执行器;否则,需要先从磁盘读入内存,然后再返回
- 执行器拿到引擎给的行数据,把这个值加1,得到新的数据,再调用引擎接口写入这行数据。
- 引擎将这行数据更新到内存中,同时将更新记录到redo log 里面,此时redo log 处于prepare状态。然后告知执行器执行完成了,随时可以提交事务。
- 执行器生成这个操作的binlog,并把binlog写入磁盘。
- 执行器调用引擎的提交事务接口,引擎把刚刚写入的redo log改成提交(commit)状态,更新完成。
图中浅色框表示是在 InnoDB 内部执行的,深色框表示是在执行器中执行的。
两阶段提交
- 两阶段提交:为了让两份日志之间的逻辑一致。
- 两个阶段的执行
- 请求阶段(commit-request phase,或称表决阶段,voting phase)
在请求阶段,协调者将通知事务参与者准备提交或取消事务,然后进入表决过程。
在表决过程中,参与者将告知协调者自己的决策:同意(事务参与者本地作业执行成功)或取消(本地作业执行故障)。 - 提交阶段(commit phase)
在该阶段,协调者将基于第一个阶段的投票结果进行决策:提交或取消。
当且仅当所有的参与者同意提交事务协调者才通知所有的参与者提交事务,否则协调者将通知所有的参与者取消事务。
参与者在接收到协调者发来的消息后将执行响应的操作。
- 怎样让数据库恢复到半个月内任意一秒的状态?
- 由于redo log和binlog是两个独立的逻辑,如果不用两阶段提交,要么就是先写完redo log再写binlog,或者采用反过来的顺序。
- 以前面update语句来做例子,假设ID = 2的行,字段c的值是0,价格执行update语句过程中写完第一个日志后,第二个日志还没有写完期间发生了crash,会出现什么情况?
1.先写redo log再写binlog。
- 假设redo log写完,binlog还没有写完的时候,MySQL进程异常重启,redo log写完之后,系统即使崩溃,仍然能够把数据恢复过来,所以恢复后这一行c的值是1.
- 由于binlog没写完就crash了,这时候binlog里面就没有记录这个语句。因此,之后备份日志的时候,存起来的binlog里面就没有这条语句。
- 如果需要用binlog来恢复临时库,由于这个语句的binlog丢失,临时库就少了一次更新,恢复出来的这一行的c就是0,与原库的值不同。
2.先写binlog后写redo log。
- 在写完binlog之后crash,由于redo log还没有写,崩溃恢复以后这个事务无效,所以这一行c的值是0。但是binlog里面已经记录了“把c从0改成1”这个日志,所以,在之后用binlog来恢复的时候据多了一个事务出来,恢复出来的这一行的值就是1,与原库的值不同。
简单来说,redolog 和binlog都是可以用户表示事务的提交状态,而两阶段提交就是让这两个状态保持逻辑上的一致。
小结
- MySQL两个日志,物理日志redo log和逻辑日志binlog。
- redolog用于保证crash-safe能力。innoDB_flush_log_at_trx_commit这个参数设置成1的时候,表示每次事务的redo log都直接持久化到硬盘。这样可以保证MySQL异常重启之后数据不丢失。