in和exists的转换
1 结论
- in()适合子查询结果集比外表查询结果集小的情况(子表查询结果集的记录数决定了数据库的交互次数)
- exists()适合子查询结果集比外表查询结果集大的情况(外表查询结果集的记录数决定了数据库的交互次数)
- 当外表查询结果集与子查询结果集数据一样大时,in与exists效率差不多,可任选一个使用
- 小表驱动大表(更准确的说是查询结果集小的驱动查询结果集大的)
- IN查询在内部表和外部表上都可以使用到索引。
- Exists查询仅在内部表上可以使用到索引。
- 表的规模不是看内部表和外部表记录数的,而是外部表和子查询结果集中记录数的大小
2 in和exists的区别
2.1 in的性能分析
select * from A
where id in(select id from B)
上述sql会先执行括号内的子查询,再执行主查询,因此相当于以下过程:
for select id from B
for select * from A where A.id = B.id
以上查询使用了in语句,in()只执行一次,它查出B表中的所有id字段并缓存到内存中之后,检查A表的id是否与B表中的id相等,如果相等则将A表的记录加入结果集中,直到遍历完A表的所有记录.
它的查询过程类似于以下过程
List resultSet=[];
Array A=(select * from A);
Array B=(select id from B);
for(int i=0;i<A.length;i++) {
for(int j=0;j<B.length;j++) {
if(A[i].id==B[j].id) {
resultSet.add(A[i]);
break;
}
}
}
return resultSet;
分析:
- 当前的in子查询是B表驱动A表
- mysql先将B表的数据一次性查出来存放于内存中,B表的记录数决定了数据库的交互次数
- 遍历B表的数据,再去查A表(每次遍历都是一次连接交互,这里会耗资源)
- 假设B有100000条记录,A有10条记录,会交互100000次数据库;再假设B有10条记录,A有100000记录,只会发生10次交互。
结论:
in()适合B表比A表数据小的情况
2.2 Exists的性能分析
select a.* from A a
where exists(select 1 from B b where a.id=b.id)
类似于以下过程:
for select * from A
for select 1 from B where B.id = A.id
它的查询过程类似于以下过程
List resultSet=[];
Array A=(select * from A)
for(int i=0;i<A.length;i++) {
if(exists(A[i].id) { //执行select 1 from B b where b.id=a.id是否有记录返回
resultSet.add(A[i]);
}
}
return resultSet;
分析:
- 当前exists查询是A表驱动B表
- 与in不同,exists将A的纪录查询到内存,因此A表的记录数决定了数据库的交互次数
- 假设A有10000条记录,B有10条记录,数据库交互次数为10000;假设A有10条,B有10000条,数据库交互次数为10。
2.3 实例
1. 建表sql
#–1.学生表
#-Student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别
CREATE TABLE `Student` (
`s_id` VARCHAR(20),
s_name VARCHAR(20) NOT NULL DEFAULT '',
s_brith VARCHAR(20) NOT NULL DEFAULT '',
s_sex VARCHAR(10) NOT NULL DEFAULT '',
PRIMARY KEY(s_id)
);
#–2.成绩表
#Score(s_id,c_id,s_score) –学生编号,课程编号,分数
Create table Score(
s_id VARCHAR(20),
c_id VARCHAR(20) not null default '',
s_score INT(3),
primary key(`s_id`,`c_id`)
);
#-3.插入学生表数据
insert into Student values('01' , '赵雷' , '1990-01-01' , '男');
insert into Student values('02' , '钱电' , '1990-12-21' , '男');
insert into Student values('03' , '孙风' , '1990-05-20' , '男');
insert into Student values('04' , '李云' , '1990-08-06' , '男');
insert into Student values('05' , '周梅' , '1991-12-01' , '女');
insert into Student values('06' , '吴兰' , '1992-03-01' , '女');
insert into Student values('07' , '郑竹' , '1989-07-01' , '女');
insert into Student values('08' , '王菊' , '1990-01-20' , '女');
#-4.成绩表数据
insert into Score values('01' , '01' , 80);
insert into Score values('01' , '02' , 90);
insert into Score values('01' , '03' , 99);
insert into Score values('02' , '01' , 70);
insert into Score values('02' , '02' , 60);
insert into Score values('02' , '03' , 80);
insert into Score values('03' , '01' , 80);
insert into Score values('03' , '02' , 80);
insert into Score values('03' , '03' , 80);
insert into Score values('04' , '01' , 50);
insert into Score values('04' , '02' , 30);
insert into Score values('04' , '03' , 20);
insert into Score values('05' , '01' , 76);
insert into Score values('05' , '02' , 87);
insert into Score values('06' , '01' , 31);
insert into Score values('06' , '03' , 34);
insert into Score values('07' , '02' , 89);
insert into Score values('07' , '03' , 98);
数据展示:
2. in方法
SELECT
a.*
FROM
Student a
WHERE
a.s_id IN (SELECT b.s_id FROM Score b WHERE b.c_id = '01')
3. exists方法
SELECT
a.*
FROM
Student a
WHERE
EXISTS(SELECT * FROM Score b WHERE a.s_id = b.s_id AND b.c_id = '01')
4. 结果
3 not in 和not exists
如果查询语句使用了not in,那么内外表都进行全表扫描,没有用到索引;但not extsts 的子查询依然能用到表上的索引。所以无论哪个表大,用not exists都比not in要快。