在web开发中经常碰到排序,可能有人有这样的想法:

           1,排序是什么时候排序,是在执行sql语句前完成排序功能,还是最后?

           2,排序对sql语句性能有影响吗?

           3,在排序中建立索引有好处吗?

          

     这段时间,在优化系统时,也碰到类似的问题,今天我们来讨论一下排序这个问题,

     1,首先我们看看什么时候排序

         执行以下的sql语句:

SELECT 
      
  * 
   
 
  FROM 
   
  
  [ 
  dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]]  
  where 
   laststepid 
  = 
  ' 
  402882ed0ea1c940010ea2332879007f 
  ' 
     
  order 
    
  by 
   workflowid

  执行计划:

   

sqlserver 排序规则chinese_prc_ci_as 日期 sqlserver排序查询_数据

 

    这里发现,sql server中排序是在数据找出来以后在进行排序的,

Top N 

Top N ”合并成了一个“Top N Sort”操作,在排序时,就直接选出数据了

   顺序:

排序是“top N”前执行,查出全部数据后执行的。

       2,排序对sql语句性能有影响吗?

         1,上面刚刚看到,但通过索引选出来的数据比较少时,排序是很快的。对性能没有影响。uju

        2, 但如果查询没有条件,如下列sql       

SELECT     
  TOP 
   ( 
  10 
  * 
  ( 
  100 
  - 
  1 
  )) ID  
  FROM 
     
  [ 
  dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]]  
   ORDER 
    
  BY 
    workflowid  
  DESC

   如果此时workflowid没有索引,该查询速度会很慢:

表扫描,取出全部表数据,才能按workflowid来排序,再进行排序后取前几行数据。

990行数据,这时执行计划里就不会有"sort"操作,

因为索引已经排好序了。

          但对其他sql有影响吗?这次我们在优化分页功能是就发现排序很花费时间。为何啦?,我们先看看一个常用排序sql

SELECT       TOP 
    
  20 
     
  * 
   
   FROM    
    [   dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]] 
   WHERE    
 (ID     IN    ( 
  SELECT 
    
  TOP 
   ( 
  10 
  * 
  ( 
  10000 
  - 
  1 
  )) ID  
  FROM 
     
  [ 
  dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]]  
  ORDER 
    
  BY 
    workflowid )) 
   ORDER     
  BY 
   
 workflowid    DESC

workflowid为非唯一索引,执行计划如下:

      

sqlserver 排序规则chinese_prc_ci_as 日期 sqlserver排序查询_大数据_02

 

    这里发现:排序很花时间,占到了44%的开销了。

workflowid建立了索引,还是慢啦?

 SQL Server 2005 分页比  2000的确提高不少,可以使用  row_number()函数来处理。  

[zping.com]]

CREATE       TABLE   [dbo].[[[zping.com]]]]] 
  ( 
       [   id   ] 
    
  [ 
  varchar 
  ] 
  ( 
  32 
  )  
  NOT 
    
  NULL 
  , 
       [   wwid   ] 
    
  [ 
  varchar 
  ] 
  ( 
  32 
  )  
  NULL 
  , 
       [   laid   ] 
    
  [ 
  varchar 
  ] 
  ( 
  32 
  )  
  NULL 
  , 
       [   cupid   ] 
    
  [ 
  varchar 
  ] 
  ( 
  32 
  )  
  NULL 
  , 
       [   isreceived   ] 
    
  [ 
  int 
  ] 
    
  NULL 
  , 
       [   issited   ] 
    
  [ 
  int 
  ] 
    
  NULL 
  , 
       [   ised   ] 
    
  [ 
  int 
  ] 
    
  NULL 
  , 
       [   isfhed   ] 
    
  [ 
  int 
  ] 
    
  NULL 
   
)

     导入该表数据有70万,取60-80条间的20条数据,在id建立唯一索引

select       *     
  from 
    
(   select       * 
  , row_number()  
  over 
   ( 
  order 
    
  by 
   id) 
 scn    from         [ 
  dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]] ) t 
   where    scn   <= 
  80 
    
  and 
   scn 
  > 
  60  
 
  sql server统计信息:
     
 表    '   [[zping.com]]   '   。扫描计数


1 ,逻辑读取  83  次,物理读取  0  次,预读  0  次,lob 逻辑读取  0  次,lob 物理读取  0  次,lob 预读  0  次。

 

  这里看到其逻辑读才83次,数据效率很高 

100000到100000-20条之间的数据 

select       *       from     
(   select       *   , row_number()    over 
   ( 
  order 
    
  by 
   id) 
 scn    from         [   dbo   ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]] ) t 
   where    scn   <   100000     
  and 
   scn 
  > 
  100000 
  - 
  20  
 
 sql server统计信息: 
     
(   19    行受影响)

 表  ' [[zping.com]] ' 。扫描计数  1 ,逻辑读取 

100740  次,物理读取  259  次,预读  2026  次,lob 逻辑读取  0  次,lob 物理读取  0  次,lob 预读  0  次。

 

100000到100000-20条之间的数据,花费了逻辑读取 100740 次,是上一个几千倍。同样是取20条数据,差距为何

这么大啊:我们对比一下执行计划:

  

sqlserver 排序规则chinese_prc_ci_as 日期 sqlserver排序查询_数据_03

 

  查看一下取60-80行的执行计划:

     1,在开始取数据时的索引扫描同样是取的“id索引”的“实际行数”是80行,在通过嵌套循环取出这个80行数据的全部字段。

序列射影“是“[Expr1004] = 标量运算符(row_number)”,说明,在选出来的list中增加虚拟列序号如(1,2,3......)

[Expr1004]>(60) AND [Expr1004]<=(80)”,取出20行数据

  实际上:这时过程中只去了80行数据,再去取20行数据

 

100000到100000-20条之间的数据执行计划

 

sqlserver 排序规则chinese_prc_ci_as 日期 sqlserver排序查询_sql_04

  执行计划和上面的一样:

   细微差别:

10万行

[Expr1004]>(99980) AND [Expr1004]<(100000)”

 

   分页技术总结:

row_number()函数,只有在数据选择出来以后再加上的虚拟列,选择的时候是不知道编号的。

      2, 要取出非索引的数据,数据库要到表里把预先要的数据全部取出来,行越多逻辑读也也越多。