哈希索引和自适应哈希索引

哈希索引

哈希索引底层使用链式哈希表来实现的,查询的时间复杂度可以达到O(1),为什么MyISAM和InnoDB都没用哈希索引呢?
因为索引除了考虑搜索效率之外,还需要考虑花费的磁盘IO。

哈希表所存储的索引关键字,是没有任何顺序可言的,只能进行等值比较,对于范围搜索、前缀搜索、排序等这些操作都不合适。
哈希索引需要在内存中构建高效的搜索数据结构,对于磁盘中的数据,哈希索引是没办法处理的,所以哈希索引一般用在内存NoSQL数据库当中,不适合关系型数据库。

自适应哈希索引

在二级索引树搜索数据时,有时候需要回表查询操作,大量的回表操作会影响查询的效率。

InnoDB存储引擎在检测到同样的二级索引不断被使用,那么它会根据这个二级索引,在内存上构建一个哈希索引来构建哈希索引,来加速搜索。

lanceDB基于哈希的索引_自适应


自适应哈希索引并不是在任何情况下都能提升二级索引的查询性能,因为它本身的数据维护也是要耗费性能的,如果命中的概率很低,甚至会拖累查询的速度。

自适应哈希索引默认有八个分区,每个分区都要一把锁,在同一个分区频繁上锁,索引命中又少时,对自适应哈希索引分区上锁的过程就会影响并发的效率,这时候就需要把自适应哈希索引给关闭。

lanceDB基于哈希的索引_mysql_02

show engine innodb status\G //查看innodb引擎的状态信息
show variables like 'innodb_adaptive_hash_index'; //查看自适应哈希索引是否启用
show variables like 'innodb_adaptive_hash_index_parts';//查看自适应哈希索引分区个数

innodb引擎的状态信息可以看到自适应哈希索引的两个比较重要的信息:

1、走自适应哈希索引的频率和二级索引的频率。(走hash searches的百分比较高就说明哈希索引有助于我们查询,走non-hash searches的百分比较高就说明哈希索引并没有给查询到带来太大帮助)

lanceDB基于哈希的索引_数据库_03

2、RW-latch等待线程的数量(同一个分区等待的线程数量过多,就需要关闭自适应哈希索引)