（九）给字符加索引

关注 wx6307135cb9367

（九）给字符加索引

原创

wx6307135cb9367 2022-09-28 09:44:24 博主文章分类：mysql ©著作权

文章标签 字段 mysql 主键 文章分类 虚拟化云计算

©著作权归作者所有：来自51CTO博客作者wx6307135cb9367的原创作品，请联系作者获取转载授权，否则将追究法律责任

场景：验证邮箱

mysql> create table SUser(
         ID bigint unsigned primary key, 
          email varchar(64),
           ... )engine=innodb;

mysql> select f1, f2 from SUser where email='xxx';

分析：

1. 如果email上没有索引，那么将会做全盘扫描

2.可以运用前缀索引（运用字符串的一部分作为索引）；

分析比较：

mysql> alter table SUser add index index1(email); 
或
mysql> alter table SUser add index index2(email(6));

第一个语句创建的 index1 索引里面，包含了每个记录的整个字符串；而第二个语句创建的 index2

索引里面，对于每个记录都是只取前 6 个字节。

（九）给字符加索引_mysql

（九）给字符加索引_mysql_02

从两图中你可以看到，由于 email(6) 这个索引结构中每个邮箱字段都只取前 6 个字节（即： zhangs ），所以占用的空间会更小，这就是使用前缀索引的优势。但，这同时带来的损失是，可能会增加额外的记录扫描次数。

前缀索引查询步骤说明：

   1. 从index2索引树找到满足索引值是’zhangs’的记录，找到的第一个是ID1；
   2. 到主键上查到主键值是ID1的行，判断出email的值不是’zhangssxyz@’，这行记录丢弃；
   3. 取index2上刚刚查到的位置的下一条记录，发现仍然是’zhangs’，取出ID2，再到ID索引上取整行然后判    断，这次值对了，将这行记录加入结果集；
   4. 重复上一步，直到在idxe2上取到的值不是’zhangs’时，循环结束。

跟全盘扫描比较：

    1. 从index1索引树找到满足索引值是’zhangssxyz@’的这条记录，取得ID2的值；
    2. 到主键上查到主键值是ID2的行，判断email的值是正确的，将这行记录加入结果集；
    3. 取index1索引树上刚刚查到的位置的下一条记录，发现已经不满足 email='zhangssxyz@’的条件了，循环结束。

结论：通过这个对比，你很容易就可以发现，使用前缀索引后，可能会导致查询语句读数据的次数变多。

解决：又不全盘扫描，避免前缀索引的额外的增加的次数；

怎么解决：使用好前缀索引的话，定义好长度，就可以节省空间，又不用额外增加太多的查询成本；

使用前缀索引很可能会损失区分度，所以你需要预先设定一个可以接受的损失比例，比如 5%。然后，在返回的L4~L7中，找出不小于 L * 95%的值，假设这里L6、L7都满足，你就可以选择前缀长度为6；

继续分析前缀索引：

1.使用前缀索引，会增加扫描行数（但是创建长度够长的，又增加磁盘空间，数据页放下的数据记录就更少；但是要是减少索引长度，又会丧失索引的区分度，并且会反而不如全盘扫描）；

2.还有就是不能再使用覆盖索引；

所以要去寻找更好的增加索引办法：

1.倒叙存储；

2.使用hash字段；

倒叙存储：

如果是身份证查询的haul，就把它倒过来查询，每次查询的时候这么写：

mysql> select field_list from t where id_card = reverse('input_id_card_string');

由于身份证号的最后 6 位没有地址码这样的重复逻辑，所以最后这 6 位很可能就提供了足够的区

分度。当然了，实践中你不要忘记使用 count(distinct) 方法去做个验证。

使用hash 字段：

你可以在表上再创建一个整数字段，来保存身份证的校验码，同时在这个字段上创建索引。

mysql> alter table t add id_card_crc int unsigned, 
       add index(id_card_crc);

mysql>select  field from t where id_card_crc=crc32('input_id_card') 
       and  id_card=id_input_id_card

这样，索引的长度变成了 4 个字节，比原来小了很多。

倒叙存储和使用hash字段增加索引的利弊：

1.

从占用的额外空间来看，倒序存储方式在主键索引上，不会消耗额外的存储空间，而 hash 字段方法需要增加一个字段。当然，倒序存储方式使用 4 个字节的前缀长度应该是不够的，如果再长点，这个消耗跟额外这个 hash 字段也差不多抵消了。

2.

在 CPU 消耗方面，倒序方式每次写和读的时候，都需要额外调用一次 reverse 函数，而 hash 字段的方式需要额外调用一

次 crc32() 函数。如果只从这两个函数的计算复杂度来看的话， reverse 函数额外消耗的 CPU 资源会更小些。

3.

从查询效率上看，使用 hash 字段方式的查询性能相对更稳定一些。因为 crc32 算出来的值虽然有冲突的概率，但是概率非常小，可以认为每次查询的平均扫描行数接近 1 。而倒序存储方式毕竟还是用的前缀索引的方式，也就是说还是会增加扫描行数。

赞
收藏
评论
分享
举报

上一篇：01.SpringBatch小入门

下一篇：11.持续集成环境—Tomcat的安装与配置

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册