多表关联索引多表关联怎么优化

转载

晨曦微露s 2024-05-21 21:36:10

文章标签 多表关联索引数据库 java python ci 文章分类 数据仓库大数据

SQL优化 MySQL版 - 多表优化及细节详讲

优化准备

首先我们需要有一个数据库，coursedb，分别创建course（课程表）、teacher（老师表），有以下字段，我们接下来将用以下这张表来做优化实例；

多表关联索引多表关联怎么优化_数据库

多表关联索引多表关联怎么优化_多表关联索引_02

teacher表里面的id 是代表一号老师教2号课程2号老师教1号课程3号老师教三号课程；id是主键

course表就是课程表1号代表java课程2号代表python...cid是主键

多表优化

此次教程不再使用可视化工具，因为效率太慢，我还是比较喜欢命令行操作；

现在有表了，有数据了，我现在写一个左连接，二表关联写一个左连接：

select * from teacher t left outer join course c on t.cid = c.cid where c.cnourse

左连接详解：

left join 是left outer join的简写【本语句使用left outer join】，它的全称是左外连接，是外连接中的一种。

左(外)连接，左表(teacher)的记录将会全部表示出来，而右表(cnourse)只会显示符合搜索条件的记录。右表记录不足的地方均为NULL；

语句解释：现在我们需要两表合一，所以就用左连接的方式，on则表明连接条件，where后面则是查询条件，查询cnourse = java课程的数据；

执行结果：

多表关联索引多表关联怎么优化_java_03

现在，我们就根据以上sql语句进行优化，所谓的优化，那就是家加索引，在加索引之前，我们需要考虑一些问题；

对于这个问题，我有一个结论，就是小表驱动大表，什么意思呢？我举个例子：

比方说我现在有一个where 小表.x = 大表.y；这个就被称之为小表驱动大表，就是把小表放左边大表放一边，这是一个结论，咱们可以稍微分析一下为啥这样干；

假设小表里面有10条数据，我大表里面有300条数据，小表放左边大表放右边对于表里的每10条数据里的每一条，300条数据都会轮循遍历一次，10条里面第一条拿出来，右边执行300次，左边10条第二条拿出来，右边再300次，同理，第三条出来，再300次....；

有一个编程原则我在这里说一下，在写for循环的时候，双层for循环，你外层数据越小内存数据越大，那它的性能就越高，这个是编程原则，把这个原则放到这里也是一样的，数据量最小的表放在前面，数据量最大的表放在后面（where 小表 cid= 大表 cid）；

但是对于刚才我写的sql语句来说，t.cid = c.cid即便反过来查询结果也是一样的完全是等价写法仅从结果上来看，但是我们从这个性能上来看，你在写之前分析一下到底是t表数据小呢，还是c表数据小，将数据小的表放到左边；

本题因为都是三条数据，所以不影响，再此就是提一提；

连表查询添加索引原则

现在我们再来研究，我们的索引到底加给那个字段；

在这里我需要再提一下，索引一定要建立经常使用的字段上，这句话对于本次优化应该这么理解：

对于左边这个小表.x = 10，每一条我都要执行300次，因此左边这个表的使用量比较大，因为每用一次执行300次嘛，左边这个x字段使用频率比较高，因此我们就需要给这个x字段加索引；

所以呢？本次优化 t.cid = c.cid很明显，t.cid使用最为频繁，所以给该字段加索引，值得一提的是，因为本次sql语句是左外连接，对于左外连接来说，一般情况下给左边加索引，因为是左外嘛，左边刚好是小表，同理，如果是右外连接我们就需要给右表加索引；

其实很好理解，左外连接就是以左表为基准，意思就是左表的所有数据都要匹配，你全部要匹配，那你必然使用频繁，因此给左表加，右外连接以右表为基准，你右表使用频繁，那就给右表加索引，都是一个意思；

添加索引

分析完了，接下来就开始我们的优化吧；

在优化之前，我们先查询一下原生态SQL语句的执行情况，我们需要explain,就是查看一下不加索引的情况：

explain select * from teacher t left outer join course c on t.cid = c.cid where c.cnourse = "java"

执行结果：

多表关联索引多表关联怎么优化_ci_04

很显然，级别都是ALL，也出现了Using where；

我们现在开始加索引：

alter table teacher add index index_teacher_cid(cid);

加完索引再试试：

多表关联索引多表关联怎么优化_多表关联索引_05

我们能发现，有一张表点查询级别提到了index，其次，我们后面还增加了一个Using index索引覆盖提高了查询性能；

到这里，我们是不是少加一个索引，我们把SQL语句拿过来看看：

select * from teacher t left outer join course c on t.cid = c.cid where c.cnourse = "java"

查询条件必然是索引才对，因为要根据它去查数据，所以我漏加了一个，现在我加上后再去执行：

alter table course add index index_course_cnourse(cnourse);

加完索引再去执行试试：

多表关联索引多表关联怎么优化_java_06

首先,查询级别全部提升到fef级别，其次在查看生效的索引，两个索引被检测到了，在最终效能里面出现了两个Using index因为两章表，此条语句优化完成；

Using join buffer

多表关联索引多表关联怎么优化_python_07

在Extra字段里面出现了一个在前几章都没有见过的属性，我们来了解一下它：

出现它的原因：MySQL引擎使用了连接缓存；

详解：

说白了就是你这个SQL语句写的太差了，mysql看不下去了它给你加了一个连接缓存，出现这个就说明mysql底层动你的sql语句了，给你加了个缓存；

后面我们自主优化性能提升后，mysql觉得我写的还不错，就不给我加缓存了；

多表查询技巧

刚才我们介绍了两表查询，有些人就会问，那三张表呢？其实我告诉你，100张表也是一样的.....即便你100张表连表查询，原则也是不变的，因为没有新知识了，所以在这里我就说下多表查询的技巧；

1.有多张表，如果你要优化，首先第一个原则我在上面介绍过，小表驱动大表，那个表数据少，就把它写到等号的左边，即便查询结果一样，就比如a表数据少b表数据多，我们就 where a.id= b.id;

2.如果有多张表，索引就建立在经常查询的字段上，假设你有 a b c 三张表，一共有20个字段，这个20个字段你没有必要全加，看着三张表的20个字段里面，谁经常在查询，谁在where后面，以及一些常用字段；

今日感悟：

永远不要强力的去反对别人；

海格斯效应告诉我们：

当你反对别人时，得到的，将是更加强力的反对；

举例说明：

你剥夺了孩子万帅的时间，那么孩子多半会把学习成绩降下来了给你看；

你剥夺了妻自由的空间，她也会什么家务都不干，你也休想安宁；

尝试用哪个另一个角度去解决问题，否则一定会面临任性的通病；

你跟我过不去，我也让你不痛快！

作者：罗昊

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：prometheus和grafana部署需要多大服务器 prometheus 客户端

下一篇：greenplum整个集群down掉了 greenplum集群安装

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯