什么是索引
索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可以快速访问数据库表中特定信息。
其实,索引的概念都很清楚,也知道索引能够提升查询效率,如何创建索引,建立在那些字段上有以下常见误解:
1.新建表是不需要建索引,后续才添加索引
2.where条件后的字段都需要创建索引
3.简单的SQL不需要索引,联合查询才需要索引
4.对于区分度小的字段上也新建索引,入状态、性别字段等
索引区分度
区分度:字段在数据库中的不重复比
区分度在新建索引时有着非常重要的参考价值,在MySQL中,区分度的计算规则如下:
字段去重后的总数与全表总记录的商。
例如:
select count(distance(name))/count(*) from table;
其中区分度最大值为1.000,最小为0.0000,区分度的值越大,也就是数据不重复率越大,新建索引效果也越好,在主键以及唯一键上面的区分度是最高的,为1.0000,在状态、性别等字段上面得区分度值是最小的(区分度为0.0000,在这些字段上添加上索引后,效果也不佳)
如何建索引
(一):区分度
1.单列索引
可以查看该字段的区分度,根据区分度大小,也能大概知道在该字段上的新建索引是否有效,以及效果如何。区分度越大,索引效果越明显。
2.多列索引(联合索引)
多列索引中其实还有一个字段的先后顺序问题,一般是将区分度较高的放在前面,这样联合索引才更有效,例如:
select * from table where name = "" and status = 1
像上面语句,如果建立索引的话,应该是:
alert table tablename add index idx_name_status(name,status)
而不是:
select table tablename add index idx_name_status(status,name)
(二)最左前缀匹配原则
MySQL会一直向右匹配直到遇到范围查询(>、
select * from table where type = "10" and created_at < "2017-11-03" and status = 1
在上述语句中,status就不会走索引,因为遇到
select * from table where type = 10 and status = 1 and created_at < "2017-11-03"
即可以走status索引
(三)函数运算
不要在索引列上进行函数运算,否则索引会实效。因为b+树中存的都是数据中的字段值,但进行检索时,需要把所有元素都应用函数才能比较,显然成本太大。
(四)扩展优先
扩展优先,不要新建索引,尽量在已有索引中修改。如下:
select * from table where name = "andyqian" and email = "andytohome"
在表table中已经存在idx_name索引,如果需要加入idx_name_email的所有,应该是修改idx_name索引,而不是新建一个索引。
误解纠正
误解一:新建表时不需要简历索引,后续才加上索引
一个好的数据表的设计,在一开始就要考虑索引的创建,而不是等到后续出问题了,影响业务的使用,才新建索引来救场,而且后续创建索引的成本也很高。
误解二:where条件后的字段军需要建立索引
where条件后的字段不予要建立全部建立索引,过多的索引,会导致索引文件剧增,也达不到预期的效果。
误解三:简单的SQl不需要建立索引,联合查询才需要建立索引
现在的互联网特别是B/S结构下,业务逻辑军剥离在代码逻辑层,到最后的SQl层面,其实都是一些简单的SQL,只有一些是连接查询,更多的还是单标操作,你说这些语句简不简单。
误解五:对于区分度较小的字段新建索引
在分区度较小的字段上新建索引,基本无效,还会增加大量的索引文件。
索引重不重要
1.导致慢查询
这个问题可能是未建立索引(这里还有很多细节,入隐式类型转换等等)
2.导致服务器超时
项目上线,在生产环境中导致业务方请求调用时,而且每次请求超时,数据已经落地,此时只能review代码,最后发现生产只有个慢查询,活活发费了10多秒。
3.数据库服务器CPU 100%
在查询频率比较高的SQL上,如果出现未建立索引,导致慢查询的话,那可能导致服务器数据库CPU 100%,影响整个系统。
最后
建议:
1.在建表时就应该考虑添加索引,入外键字段等等。
2.在写完SQLhouse,一定要查看执行计划,尽量避免全表扫描。
3.如果是已有表中添加索引,一定要先计算该字段的区分度。
4.联合索引,将区分度带大的放在前面。
5.遵循MySQl左列前缀优先原则。