Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？

精选原创

小目标青年来也 2023-04-01 21:20:32 博主文章分类：MySQL ©著作权

文章标签 mysql 数据库 sql 优化查询 文章分类 MySQL 数据库

©著作权归作者所有：来自51CTO博客作者小目标青年来也的原创作品，请联系作者获取转载授权，否则将追究法律责任

前言

Mysql 我随手造200W条数据，给你们讲讲分页优化

MySql 索引失效、回表解析

今天再聊聊一些我想分享的查询优化相关点。

正文

准备模拟数据。

首先是一张 test_orde 表：

CREATE TABLE `test_order` (
	`id` INT(11) NOT NULL AUTO_INCREMENT,
	`p_sn` VARCHAR(50) NULL DEFAULT NULL COLLATE 'utf8_general_ci',
	`t_sn` VARCHAR(50) NULL DEFAULT NULL COLLATE 'utf8_general_ci',
	`type` TINYINT(4) NULL DEFAULT NULL,
	`create_time` DATETIME NULL DEFAULT NULL,
	PRIMARY KEY (`id`) USING BTREE
)

然后是一个存储过程：

BEGIN                                
    DECLARE num INT DEFAULT 2000000;         
    DECLARE i INT DEFAULT 0; 
    
    WHILE i < num DO             
    INSERT INTO test_order(`p_sn`,`t_sn`,`type`,`create_time`) 
         VALUES(CONCAT('SN',i),UUID(),1,now());
        SET i =  i + 1;
    END WHILE;        
END

执行存储过程，看下模拟数据：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_优化

开始。

① 使用 count 、 group by 注意点

比如，我们想统计一下当前表里面，根据type维度分别有多少数据：

SELECT COUNT(*) ,type
FROM test_order GROUP BY TYPE ;

目前可以看到我们现在数据库表里面，其实type 就 1个，就是 1 。

真实场景，我们肯定不止一个type。

改造出模拟数据(尽量使数据更随机，真实业务场景也许会更加更加散乱)：

将数据里面 id 是 7的倍数的数据的type 改成 5；

将数据里面 id 是 5 的倍数的数据的type 改成 2；

将数据里面 id 是 3 的倍数的数据的type 改成 4；

将数据里面 id 是 2 的倍数的数据的type 改成 3；

sql：

UPDATE test_order a
INNER JOIN test_order b ON b.id % 7=0 AND a.id=b.id SET a.TYPE =5
UPDATE test_order a
INNER JOIN test_order b ON b.id % 5=0 AND a.id=b.id SET a.TYPE =2
UPDATE test_order a
INNER JOIN test_order b ON b.id % 3=0 AND a.id=b.id SET a.TYPE =4
UPDATE test_order a
INNER JOIN test_order b ON b.id % 2=0 AND a.id=b.id SET a.TYPE =3

看看效果：

统计出表里面不同 type 类型的数据分别有多少条，且看看时间用了多久：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_mysql_02

看看 EXPLAIN :

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_数据库_03

Using filesort : 通过表的索引或全表扫描，读取满足条件的数据行，然后在排序缓冲区sort buffer中完成排序操作，所以并不是通过索引直接返回排序结果的排序都叫 FileSort 排序

可以看到，分析里面出现了一个 using filesort ，这个玩意就是慢的原因。

可以看到用到了 group by type ，返回来的数据 TYPE 是 1，2，3，4，5 默认升序排好的。

是的，相当于 mysql 默认帮我们执行了排序，无疑这是需要花时间的。

所以说，当我们仅仅要的是不同 type 数据的统计数量结果，那么我们是可以优化掉这个排序的耗时的。

优化技巧：

order by null

我们在 group by 后面加上 ORDER BY NULL ，强制禁止排序，

看看效果：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_数据库_04

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_优化_05

那有没有更加快的优化？

有的，加索引。 group by 是能命中索引的。

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_优化_06

加完索引效果：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_优化_07

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_sql_08

②使用 left join / right join 的注意点

关联查询，比如有 A 、 B 两个表。

A表即是我们的 test_order 表 200W条数据：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_数据库_09

而B 表是 test_order_detail 表 5W 条数据：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_查询_10

这两个表通过id、order_id 关联(简单举个例子)。

注意点：

1.当使用left join时，左表是驱动表，右表是被驱动表
2.当使用right join时，右表是驱动表，左表是被驱动表
3.当使用inner join时，mysql会默认自动选择数据量比较小的表作为驱动表，大表作为被驱动表

我们尽量要保证小表驱动大表，大小指的是数据量。

那么我们看 left join 来看看效果， A表 test_order 目前是大表 B表 test_order_detail是小表效果：

我们使用 left join ，故意把大数据表放在左，小数据表放在右，这时候左大驱右小，

发现用了13秒，返回的是 200万条数据

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_优化_11

看看EXPLAIN分析情况：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_优化_12

ps ：
当查询引擎完成对行的计数时，结果集的其余部分出现。所以Heidi所谓的“网络时间”是计算行数的时间。这对于MyISAM来说实际上是瞬间的，而InnoDB需要一段时间。（heidiSQL编辑器）

那么如果我们反过来，左小驱右大：

发现用了0.29秒，返回的是 5万条数据

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_数据库_13

看看EXPLAIN分析情况：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_查询_14

可以看到小表驱动大表的情况，时间效果的差距所在。

所以根据业务情况，必须要清晰地使用上这个优化技巧，尽可能保证小表驱动大表。

为什么？

其实这个道理很简单，驱动表和被驱动表，就相当于 2层 for 循环遍历。

比如大表200万数据驱动小表 5万数据，就是：

for(int  驱动表行数=0 ;  驱动表行数 <20000000; 驱动表行数++){
    
    for (int 被驱动表行数=0 ;  被驱动表行数<50000;  被驱动表行数++){
        
         找出 驱动表行记录 条件  等于  被驱动表行记录 条件值
    }
    
}

那可能很多初学者还是不明白，放外面是 200W 循环，里面再嵌套 5W 是 200 乘以 5 ？

那跟反过来5 乘以 200 有什么区别？

简析：

可以看到上述的 EXPLAIN 大表驱动小表或是小表驱动大表，可以看到驱动表的索引都是不生效的，生效的是被驱动表的索引。

索引是b+树，在索引上等值查询的时间复杂度为logN。

因为驱动表不走索引，需要全表扫描，而被驱动表可以建立索引加速查找。

若小表驱动大表，则时间复杂度为 5W*log200W
若大表驱动小表，则时间复杂度为 200W*log5W

所以为什么时间耗时久，也就显然得知了。

是因为被驱动表又能命中索引，而且时间查找又快啊。

③ 对字段进行表达式操作的注意点

比如我们想查出来 type 是 2 的 2倍的数据（这里简单用type举例，可能业务上更多是传入一个参数,然后触发某某计算倍数的概念）：

当我们把字段 type 融入到表达式里面时，可以看到耗时是 2.45+秒（因为索引失效了）：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_sql_15

看看EXPLAIN分析情况：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_mysql_16

而我们把 type 字段抽出来，不参与表达式操作，我们发现效果一样，但是耗时只有 1.3 秒（因为能命中索引）：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_mysql_17

看看EXPLAIN分析情况：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_mysql_18

④ 对明确知道的条件值使用 or 查询还是 UNION ALL ,有说法

比如我们想查出表里面 type 是1 或者 type 是 5的数据 , 如果我们使用 or 去实现，大家知道的，使用or 是命中不了索引的，会全表扫描。

很多这种时候，大家可能就会想，遇到or 慢查询，就换成 UNION ALL 呗。

其实并不然。

你可以理解为，当你使用or 查询发现慢的时候，你可以尝试使用UNION ALL 去替代调试，注意，是调试，如果性能确实优化了，你就可以替代。

直接眼见为实：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_mysql_19

首先可以看到 union all 比 or 还要慢。

甚至还可以看看 in 的效果，也是跟 or 基本一致也是 3秒左右。

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_mysql_20

我们看看使用 in的 EXPLAIN ：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_数据库_21

再看看使用 or 的 EXPLAIN ：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_优化_22

or 和 in 几乎是一样的在不中索引的时候。

那看看 union all 的 EXPLAIN ：

可以看到命中了索引的。

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_查询_23

但是为什么这时候 union all 反而慢呢？

原因：

1. 其实我们可以关注到 rows 和 filtered

2. 数据量情况以及散乱程度

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_sql_24

当全表扫描 98% 的数据都是需要的，一次扫描拿出结果。

而 union all 进行了 2次扫描，虽然扫的是索引，但是扫了96万 + 99 万数据，我们一共才200W数据。

2次加起来跟我们全部扫描看到的row 199万基本没区别。

这时候就是看数据的分布情况了。

继续看看查询三个 type ：

使用 OR ：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_mysql_25

使用 union all ：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_sql_26

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_sql_27

再再再顺便再贴一个示例（查询不同字段条件值的场景），让大家知道 or 和 union all 就是需要看实际情况调试使用的：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_数据库_28

所以什么时候用 or 什么时候用 union all ，非绝对，要调试为准（特别是当你的union all 条件的字段也没索引的时候，你想想扫描多次表的效率）！

⑤ order by 的效能提升

先改造一下表：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_sql_29

平时我们写代码，很多时候，我们一些复杂的业务sql拆分，我们很愿意去拆，提高效率。

但是遇到排序，我个人就很懒，基本就是丢到sql上面 order by 了。

那么这就有说法了。

模拟点数据 :

UPDATE test_order a
INNER JOIN test_order b ON b.id % 7=0 AND a.id=b.id SET a.i_amount =99;
UPDATE test_order a
INNER JOIN test_order b ON b.id % 5=0 AND a.id=b.id SET a.i_amount =66;
UPDATE test_order a
INNER JOIN test_order b ON b.id % 3=0 AND a.id=b.id SET a.i_amount =588;
UPDATE test_order a
INNER JOIN test_order b ON b.id % 2=0 AND a.id=b.id SET a.i_amount =88;

可以看到现在数据有那么一些些乱了，可以来讲讲 order by 排序了：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_查询_30

这时，如果我们进行组合排序，按照 i_amount 排序然后再按照 type 排序，我们会发现，引擎有脾气，没有中索引，但是在 extra上面有说 用了 using filesort 。

时间肯定是没有直接用上 index 快的：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_sql_31

所以我们给它整活，我们升级成组合索引：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_mysql_32

这时候我们再执行，发现可以命中了index 了：

Mysql 竟然还有这么多不为人知的查询优化技巧，还不看看？_sql_33

好了，就先讲到这吧，有空再讲其他。

上一篇：Springboot 我随手封装了一个万能的导出excel工具，传什么都能导出

下一篇：面试官问： ArrayList 不是线程安全的，为什么？（看完这篇，以后反问面试官）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯