lanceDB基于哈希的索引

转载

angel 2024-09-13 18:19:15

文章标签 lanceDB基于哈希的索引数据库 mysql 自适应搜索 文章分类 数据仓库大数据

哈希索引和自适应哈希索引

哈希索引

哈希索引底层使用链式哈希表来实现的，查询的时间复杂度可以达到O(1)，为什么MyISAM和InnoDB都没用哈希索引呢？
因为索引除了考虑搜索效率之外，还需要考虑花费的磁盘IO。

哈希表所存储的索引关键字，是没有任何顺序可言的，只能进行等值比较，对于范围搜索、前缀搜索、排序等这些操作都不合适。
哈希索引需要在内存中构建高效的搜索数据结构，对于磁盘中的数据，哈希索引是没办法处理的，所以哈希索引一般用在内存NoSQL数据库当中，不适合关系型数据库。

自适应哈希索引

在二级索引树搜索数据时，有时候需要回表查询操作，大量的回表操作会影响查询的效率。

InnoDB存储引擎在检测到同样的二级索引不断被使用，那么它会根据这个二级索引，在内存上构建一个哈希索引来构建哈希索引，来加速搜索。

lanceDB基于哈希的索引_自适应

自适应哈希索引并不是在任何情况下都能提升二级索引的查询性能，因为它本身的数据维护也是要耗费性能的，如果命中的概率很低，甚至会拖累查询的速度。

自适应哈希索引默认有八个分区，每个分区都要一把锁，在同一个分区频繁上锁，索引命中又少时，对自适应哈希索引分区上锁的过程就会影响并发的效率，这时候就需要把自适应哈希索引给关闭。

lanceDB基于哈希的索引_mysql_02

show engine innodb status\G //查看innodb引擎的状态信息
show variables like 'innodb_adaptive_hash_index'; //查看自适应哈希索引是否启用
show variables like 'innodb_adaptive_hash_index_parts';//查看自适应哈希索引分区个数

innodb引擎的状态信息可以看到自适应哈希索引的两个比较重要的信息：

1、走自适应哈希索引的频率和二级索引的频率。（走hash searches的百分比较高就说明哈希索引有助于我们查询，走non-hash searches的百分比较高就说明哈希索引并没有给查询到带来太大帮助）

lanceDB基于哈希的索引_数据库_03