在web开发中经常碰到排序,可能有人有这样的想法:
1,排序是什么时候排序,是在执行sql语句前完成排序功能,还是最后?
2,排序对sql语句性能有影响吗?
3,在排序中建立索引有好处吗?
这段时间,在优化系统时,也碰到类似的问题,今天我们来讨论一下排序这个问题,
1,首先我们看看什么时候排序
执行以下的sql语句:
SELECT
*
FROM
[
dbo
]
.
[
[[zping.com
]
]]]]
where
laststepid
=
'
402882ed0ea1c940010ea2332879007f
'
order
by
workflowid
执行计划:
这里发现,sql server中排序是在数据找出来以后在进行排序的,
Top N
Top N ”合并成了一个“Top N Sort”操作,在排序时,就直接选出数据了
顺序:
排序是“top N”前执行,查出全部数据后执行的。
2,排序对sql语句性能有影响吗?
1,上面刚刚看到,但通过索引选出来的数据比较少时,排序是很快的。对性能没有影响。uju
2, 但如果查询没有条件,如下列sql
SELECT
TOP
(
10
*
(
100
-
1
)) ID
FROM
[
dbo
]
.
[
[[zping.com
]
]]]]
ORDER
BY
workflowid
DESC
如果此时workflowid没有索引,该查询速度会很慢:
表扫描,取出全部表数据,才能按workflowid来排序,再进行排序后取前几行数据。
990行数据,这时执行计划里就不会有"sort"操作,
因为索引已经排好序了。
但对其他sql有影响吗?这次我们在优化分页功能是就发现排序很花费时间。为何啦?,我们先看看一个常用排序sql
SELECT TOP
20
*
FROM
[ dbo
]
.
[
[[zping.com
]
]]]]
WHERE
(ID IN (
SELECT
TOP
(
10
*
(
10000
-
1
)) ID
FROM
[
dbo
]
.
[
[[zping.com
]
]]]]
ORDER
BY
workflowid ))
ORDER
BY
workflowid DESC
workflowid为非唯一索引,执行计划如下:
这里发现:排序很花时间,占到了44%的开销了。
workflowid建立了索引,还是慢啦?
SQL Server 2005 分页比 2000的确提高不少,可以使用 row_number()函数来处理。
[zping.com]]
CREATE TABLE [dbo].[[[zping.com]]]]]
(
[ id ]
[
varchar
]
(
32
)
NOT
NULL
,
[ wwid ]
[
varchar
]
(
32
)
NULL
,
[ laid ]
[
varchar
]
(
32
)
NULL
,
[ cupid ]
[
varchar
]
(
32
)
NULL
,
[ isreceived ]
[
int
]
NULL
,
[ issited ]
[
int
]
NULL
,
[ ised ]
[
int
]
NULL
,
[ isfhed ]
[
int
]
NULL
)
导入该表数据有70万,取60-80条间的20条数据,在id建立唯一索引
select *
from
( select *
, row_number()
over
(
order
by
id)
scn from [
dbo
]
.
[
[[zping.com
]
]]]] ) t
where scn <=
80
and
scn
>
60
sql server统计信息:
表 ' [[zping.com]] ' 。扫描计数
1
,逻辑读取
83
次,物理读取
0
次,预读
0
次,lob 逻辑读取
0
次,lob 物理读取
0
次,lob 预读
0
次。
这里看到其逻辑读才83次,数据效率很高
100000到100000-20条之间的数据
select * from
( select * , row_number() over
(
order
by
id)
scn from [ dbo ]
.
[
[[zping.com
]
]]]] ) t
where scn < 100000
and
scn
>
100000
-
20
sql server统计信息:
( 19 行受影响)
表 ' [[zping.com]] ' 。扫描计数 1 ,逻辑读取
100740
次,物理读取
259
次,预读
2026
次,lob 逻辑读取
0
次,lob 物理读取
0
次,lob 预读
0
次。
100000到100000-20条之间的数据,花费了逻辑读取 100740 次,是上一个几千倍。同样是取20条数据,差距为何
这么大啊:我们对比一下执行计划:
查看一下取60-80行的执行计划:
1,在开始取数据时的索引扫描同样是取的“id索引”的“实际行数”是80行,在通过嵌套循环取出这个80行数据的全部字段。
序列射影“是“[Expr1004] = 标量运算符(row_number)”,说明,在选出来的list中增加虚拟列序号如(1,2,3......)
[Expr1004]>(60) AND [Expr1004]<=(80)”,取出20行数据
实际上:这时过程中只去了80行数据,再去取20行数据
100000到100000-20条之间的数据执行计划
执行计划和上面的一样:
细微差别:
10万行
[Expr1004]>(99980) AND [Expr1004]<(100000)”
分页技术总结:
row_number()函数,只有在数据选择出来以后再加上的虚拟列,选择的时候是不知道编号的。
2, 要取出非索引的数据,数据库要到表里把预先要的数据全部取出来,行越多逻辑读也也越多。