join on 索引

转载

kcoufee 2024-09-15 16:32:01

文章标签 join on 索引 sql oracle SQL 执行计划 文章分类 数据仓库大数据

1. 问题提出

客户系统有这样一条SQL，脱敏后如下：

SELECT NVL(MAX(T1.CREATED),SYSDATE) FROM DUAL LEFT JOIN TEST11 T1
ON T1.OWNER=’OUTLN’ AND OBJECT_TYPE IS NOT NULL;

SQL是TEST11表和DUAL表相关联，WHERE条件中OWNER字段有索引，SQL走了该字段索引范围扫描的执行计划，单次执行逻辑读2117。SQL执行频率非常高，一分钟数万次。执行计划如下：

join on 索引_执行计划

2. 初步优化

WHERE条件有两个【OWNER=’OUTLN’】和【OBJECT_TYPE IS NOT NULL】，查询取出来的字段是CREATED，考虑创建OWNER+OBJECT_TYPE+CREATED三列联合索引，可以消除回表的成本，创建索引后逻辑读由2117降为82。执行计划如下：

join on 索引_执行计划_02

3. 简化版取min/max索引优化

为了更好理解，我们把问题简化成取表里CREATED最小值（或者最大值）。

需要取得TEST11表CREATED的最大/最小值：

SELECT MAX(CREATED) FROM TEST11;

假设存在CREATED字段的索引，那么完全可以只取叶子块的最靠边的一个块，就能得到所需要的的值。

下面做一个测试，创建一个测试表：

create table test11 tablespace DATA_TS as select * from dba_objects where rownum <1000;

begin 
for i in 0..10 loop
insert /*+append */into test11 select * from test11;
commit;
end loop;
end;
/

创建一个CREATED的索引，然后运行之前简化的SQL。根据索引原理可以判断应该需要3-4个逻辑读：分别是Root节点开始–>找最右边的Branch(可能是0-2个,根据索引的层级)–>再找到最右边的Leaf Block。

执行如下，结果和我们之前设想的一样，执行计划走的是INDEX FULL SCAN(MIN/MAX)。

join on 索引_join on 索引_03

设想稍微复杂一点场景：假设需要得到的是符合指定的条件的最大CREATED值呢？

如果我们需要取的是符合OWNER = 'OUTLN’的最大CREATED值。SQL如下：

SELECT MAX(CREATED) FROM TEST11 WHERE OWNER = 'OUTLN';

如果存在(OWNER,CREATED)组合索引，数据库就可以利用类似的方法只取其中一个叶子节点。执行计划走的是INDEX RANGE SCAN(MIN/MAX)，逻辑读是3：

join on 索引_join on 索引_04

那么假如是SELECT MAX(CREATED) FROM TEST11 WHERE OWNER= ‘OUTLN’ AND OBJECT_TYPE =‘TABLE’ ，就需要新的索引(OWNER,OBJECT_TYPE,CREATED)来完成同样的动作。执行计划走的是INDEX RANGE SCAN(MIN/MAX)，需要3个逻辑读：

join on 索引_oracle_05

也就是说，必须条件中的列和索引前导列完全匹配，然后取的索引里最后一列的MAX/MIN值，它就可以走最优的INDEX RANGE SCAN (MIN/MAX)索引。

4. 转化IS NOT NULL条件到索引中

回到原始的SQL：

SELECT NVL(MAX(T1.CREATED),SYSDATE) FROM DUAL LEFT JOIN TEST11 T1
ON T1.OWNER=’OUTLN’AND OBJECT_TYPE IS NOT NULL;

原始SQL中除了OWNER=’OUTLN’,还有一个OBJECT_TYPE IS NOT NULL，直接创建 (OWNER,OBJECT_TYPE,CREATED)联合索引消耗逻辑读82，并不能达到最优的效果，因为OBJECT_TYPE IS NOT NULL不能对应到索引的一个特定值，执行计划如下：

join on 索引_执行计划_06

我们需要把OBJECT_TYPE IS NOT NULL的条件固化成一个特定的值，这样就可以匹配索引中的特定值了。SQL需要改写一下:

1) 去掉DUAL, 并不会影响结果集：

SELECT NVL(MAX(T1.CREATED),SYSDATE) FROM TEST11 T1
WHERE T1.OWNER=’OUTLN’AND OBJECT_TYPE IS NOT NULL;

2) 把OBJECT_TYPE IS NOT NULL变成一个特定值，这里用了CASE WHEN，SQL变成：

SELECT MAX(CREATED) FROM TEST11
WHERE OWNER ='OUTLN'
AND CASE WHEN OBJECT_TYPE IS NOT NULL THEN 1 END = 1;

3) 创建一个函数索引。也就是说OBJECT_TYPE IS NOT NULL的记录在索引中存储为1。如下：

CREATE INDEX IDX_TEST11_MAX ON TEST11(OWNER,CASE WHEN OBJECT_TYPE IS NOT NULL THEN 1 END,CREATED) PARALLEL 4 NOLOGGING;
ALTER INDEX IDX_TEST11_MAX NOPARALLEL;

此时执行计划如下，逻辑读降为3：

join on 索引_执行计划_07

6. 优化结果

为生产SQL创建CASE WHEN索引并改写SQL后逻辑读降为75，并没有走上最优的INDEX RANGE SCAN (MIN/MAX)执行计划，这是因为这种写法MAX(T1.CREATED)被放在最外层，也就是说对MAX的取值是基于关联后的结果集而不是基于TEST11表。

join on 索引_SQL_08

SQL是TEST11和DUAL做关联，取NVL (MAX (T1.CREATED), SYSDATE) 的值，即使没有数据也会返回SYSDATE的值，去掉DUAL表不影响，去掉DUAL表后SQL逻辑读降为3：

join on 索引_SQL_09

最终完成了一个高频SQL从2117到3的极致优化，提升达数百倍。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：基于arm架构的安全芯片

下一篇：python 将数字替换空值

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

join on 索引

join on 索引

1. 问题提出

2. 初步优化

3. 简化版取min/max索引优化

4. 转化IS NOT NULL条件到索引中

1) 去掉DUAL, 并不会影响结果集：

2) 把OBJECT_TYPE IS NOT NULL变成一个特定值，这里用了CASE WHEN，SQL变成：

3) 创建一个函数索引。也就是说OBJECT_TYPE IS NOT NULL的记录在索引中存储为1。如下：

6. 优化结果

51CTO博客