mysql索引为什么要用二叉树 mysql索引为什么使用b+树

转载

mob64ca14092155 2023-10-10 11:53:35

文章标签 mysql索引为什么要用二叉树数据子节点二叉树 文章分类 MySQL 数据库

项目中一直使用Mysql，对于慢sql优化也一直在做，但是一直没有梳理清楚，这里简单总结一下

首先看一下mysql为什么要使用索引

1）索引是帮助Mysql高效获取数据的排好序的数据结构

2）索引存储在文件里

首先说明一下，Mysql是使用B+树作为索引的

在没有索引的情况下，如果要找到一条记录的化，是通过全表扫描的

一张数据表中记录了分数，有两个字段，id，core：

mysql索引为什么要用二叉树 mysql索引为什么使用b+树_二叉树

如果要查找core=5 的记录，where core=5 ，按照全表扫描顺序查找从第一条记录开始，需要查询6次才可以找到

如果我们对core字段加上索引后，假设使用的是最简单的二叉树作为索引的存储方式，同样的如果查找 where core =5 的记录，按照二叉树的存储结构，如下图

mysql索引为什么要用二叉树 mysql索引为什么使用b+树_子节点_02

那么我们查找3次就可以找到了

那为什么Mysql中不使用二叉树作为索引呢，那就来看看二叉树的特点

（一）二叉树

二叉树是一种比顺序结构更加高效的查找目标元素的结构，从父节点开始，和目标元素比较，如果相等返回当前节点，如果目标元素值小于当前节点，则移动到当前节点的左侧子节点比较，如果目标元素值大于当前节点，则移动到当前节点的右侧子节点比较，反复操作，最终找到目标元素节点的位置后返回，二叉树的查找时间复杂度可以达到O(log2(n))。

但是二叉树有一个致命的缺点，如果我们的目标元素是有规律递增或者递减的，这样出来的二叉树就会失去平衡，变成了一个线性链表结构，比如使用二叉树作为索引，那么我们将数据库主键ID这一列建立索引，得到的索引的数据结构就变成下面这样，这种情况下，查找数据和没有索引是一样的效果，那么索引就起不到作用了。

mysql索引为什么要用二叉树 mysql索引为什么使用b+树_子节点_03

针对上面的这种场景，我们很容易想到那为什么不用可以保持平衡的二叉树呢，比如说红黑树，那么我们就来看看红黑树的特点

（二）红黑树

红黑树是一种平衡二叉树，它继承了二叉树的优点，由解决了二叉树遇到的自增数据索引失效的问题，因为红黑树的会对树的结构进行调整，进行左旋或者右旋及颜色变换等操作，始终保证左子节点数<父节点数<右子节点数

红黑树不作为Mysql索引的原因是，当数据量大时候，树的深度也很大，每个父节点最多只能有两个子节点，如果表中有很多数据，那么树的深度很大，达到十几或几十层，后续会了解到这样的深度对于Mysql的磁盘寻址非常不利，也是相当耗时的。

那问题来了，如果是因为树的深度太高，查找数据不方便，那为什么不用可以直接定位到某条数据的hash算法作为Mysql的索引呢，那么我们来看看Hash的特点

（三）Hash算法

对数据进行hash，也就是散列运算，然后将hash结果作为文件指针，可以从索引文件中获得数据的文件指针，再到数据文件中获取到数据，按照这种结构，我们很快能定位出来某一条数据的位置，查询的效率非常高，那么它的问题点在哪呢，那就是不支持范围查询，分页或者大于小于某个范围的查询都是无法支持的，只能支持固定的字段名 = 目标值的场景，同样也不适合Like这种模糊查询，所以这种算法肯定是不适合作为数据库的索引的。

那我们再来看看平衡二叉树的问题

mysql索引为什么要用二叉树 mysql索引为什么使用b+树_mysql索引为什么要用二叉树_04

平衡二叉树的要求是节点的子节点高度差不能超过1，如上图中节点20，左节点高度为1，右节点高度为0，高度差为1，所以上图可以定义为一个平衡二叉树，保证二叉树平衡的方法就是通过左旋或者右旋等操作

上图中保存的id的索引，如果要查找id=8的数据，首先要把根节点加载到内存中，然后进行比较，8比根结点的10小，所以要加载10的左节点就是5对应的磁盘块2，把5加载到内存中进行比较，8和5比较，需要加载5的右节点也就是8的索引对应的数据，发现命中，整个过程中进行了3次IO。

那么现在来看看怎么找到索引对应的数据呢

索引保存数据的方式一般有两种，第一种是在节点的数据区保存ID=8的行数据的所有数据具体内容，另一种方式是在节点的数据区保存的是真正保存数据的磁盘地址。

平衡二叉树解决了线性链表的问题，查询效率也还可以，但是Mysql不选用这种结构作为索引的原因总结一下：

1）搜索效率不足，在树的结构中，树的深度决定了搜索的IO次数，上面的查找id=8的数据，就进行了3次IO，当数据量达到百万级别的时候，树的高度导致的IO次数就很恐怖了。

2）查询的效率不稳定，如果查找的数据正好落在根节点，那么只需要一次IO，如果是在叶子节点，那么就需要多次IO。

3）节点存储的数据内容太少，没有很好的利用操作系统和磁盘数据交换特性，也没有很好的利用磁盘IO的预读能力。操作系统和磁盘之间一次数据交换是以页为单位的，一页 = 4K，也就是每次IO交互操作系统会将4K的数据加载到内存中，但是在二叉树的每个节点的结构中只保存了一个关键字，一个数据区，两个子节点的引用，并不能够填满4K的数据量，也就是辛辛苦苦做了一次IO操作，却只加载了一个关键字，在数的高度很高，搜索的数据又是在叶子节点，取一个关键字需要做很多次的IO

有没有办法解决这种问题呢？

有的，一种多路平衡查找树（Balance Tree），B Tree是一个绝对平衡树，所有的叶子节点在同一个高度

mysql索引为什么要用二叉树 mysql索引为什么使用b+树_二叉树_05

看一下定义，上面的这个树是一个 2-3树（每个节点存储2个关键字，有3路），每个节点保存的关键字个数和路数关系为：关键字个数=路数-1

假设从上图中查找id=28的数据，B Tree的查找过程是：首先把根结点加载到内存中，加载了17和35两个关键字，比较，如果X<17，则指向P1，如果X=17，命中返回，如果 17<X<35，则指向P2，如果X=35，则命中返回，如果X>35，则指向P3，按照如上规则递归查找，首先找到指针P2对应的节点，直到命中28对应的节点数据后，就去加载28对应的数据，找到28对应数据区，数据区中存储的是具体的数据或者是指向数据的指针。

这种数据结构能够很好的利用操作系统和磁盘的交互特性，Mysql为了能更好的利用磁盘的预读能力，将页的大小设置为16K，就是将一个节点（磁盘块）的大小设置为16K，一次IO将一个节点（16K）内容加载到内存中，假设关键字的类型是int，4个字节，每个关键字对应的数据区也为4个字节，不考虑子节点应用的情况下，上图中每个节点大约能够存储（16*1000）/8 = 2000个关键字，那么对应的就是2001个路数，对于这种有2001个路数的B树，三层的高度能够搜索到的关键字的个数是远远大于普通的二叉树的

在B树保持树的平衡的过程中，每次关键字的变化都会导致机构发生很大的变化，这个过程是特别浪费时间的，所以创建索引一定要创建合适的索引，而不是把所有的字段都建立索引，创建冗余的索引只会对数据的增加、删除、修改增加更大的性能消耗。

既然B树已经能很好的解决问题了，为什么还需要用B+树呢？

首先来看一下B+树的概念

B+树是B树的一个变种，它不再遵循关键字个数=路数-1 这个规则，数据的检索规则是采用的左闭合取件，路数和关键字的个数关系为1:1，看下图：

mysql索引为什么要用二叉树 mysql索引为什么使用b+树_二叉树_06