sqlserver 排序规则chinese_prc_ci_as 日期 sqlserver排序查询

转载

夜行者3号 2024-05-07 08:48:43

文章标签 大数据数据库数据执行计划 sql 文章分类 架构后端开发

在web开发中经常碰到排序，可能有人有这样的想法：

1，排序是什么时候排序，是在执行sql语句前完成排序功能，还是最后？

2，排序对sql语句性能有影响吗？

3，在排序中建立索引有好处吗？

这段时间，在优化系统时，也碰到类似的问题，今天我们来讨论一下排序这个问题，

1，首先我们看看什么时候排序

执行以下的sql语句：

SELECT 
      
  * 
   
 
  FROM 
   
  
  [ 
  dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]]  
  where 
   laststepid 
  = 
  ' 
  402882ed0ea1c940010ea2332879007f 
  ' 
     
  order 
    
  by 
   workflowid

执行计划：

sqlserver 排序规则chinese_prc_ci_as 日期 sqlserver排序查询_数据

这里发现，sql server中排序是在数据找出来以后在进行排序的，

Top N

Top N ”合并成了一个“Top N Sort”操作，在排序时，就直接选出数据了

顺序：

排序是“top N”前执行，查出全部数据后执行的。

2，排序对sql语句性能有影响吗？

1，上面刚刚看到，但通过索引选出来的数据比较少时，排序是很快的。对性能没有影响。uju

2，但如果查询没有条件，如下列sql

SELECT     
  TOP 
   ( 
  10 
  * 
  ( 
  100 
  - 
  1 
  )) ID  
  FROM 
     
  [ 
  dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]]  
   ORDER 
    
  BY 
    workflowid  
  DESC

如果此时workflowid没有索引，该查询速度会很慢：

表扫描，取出全部表数据，才能按workflowid来排序，再进行排序后取前几行数据。

990行数据，这时执行计划里就不会有"sort"操作，

因为索引已经排好序了。

但对其他sql有影响吗？这次我们在优化分页功能是就发现排序很花费时间。为何啦？，我们先看看一个常用排序sql

SELECT       TOP 
    
  20 
     
  * 
   
   FROM    
    [   dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]] 
   WHERE    
 (ID     IN    ( 
  SELECT 
    
  TOP 
   ( 
  10 
  * 
  ( 
  10000 
  - 
  1 
  )) ID  
  FROM 
     
  [ 
  dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]]  
  ORDER 
    
  BY 
    workflowid )) 
   ORDER     
  BY 
   
 workflowid    DESC

workflowid为非唯一索引，执行计划如下：

sqlserver 排序规则chinese_prc_ci_as 日期 sqlserver排序查询_数据_02

这里发现：排序很花时间，占到了44%的开销了。

workflowid建立了索引，还是慢啦？

SQL Server 2005 分页比 2000的确提高不少，可以使用 row_number()函数来处理。

[zping.com]]

CREATE       TABLE   [dbo].[[[zping.com]]]]] 
  ( 
       [   id   ] 
    
  [ 
  varchar 
  ] 
  ( 
  32 
  )  
  NOT 
    
  NULL 
  , 
       [   wwid   ] 
    
  [ 
  varchar 
  ] 
  ( 
  32 
  )  
  NULL 
  , 
       [   laid   ] 
    
  [ 
  varchar 
  ] 
  ( 
  32 
  )  
  NULL 
  , 
       [   cupid   ] 
    
  [ 
  varchar 
  ] 
  ( 
  32 
  )  
  NULL 
  , 
       [   isreceived   ] 
    
  [ 
  int 
  ] 
    
  NULL 
  , 
       [   issited   ] 
    
  [ 
  int 
  ] 
    
  NULL 
  , 
       [   ised   ] 
    
  [ 
  int 
  ] 
    
  NULL 
  , 
       [   isfhed   ] 
    
  [ 
  int 
  ] 
    
  NULL 
   
)

导入该表数据有70万，取60-80条间的20条数据，在id建立唯一索引

select       *     
  from 
    
(   select       * 
  , row_number()  
  over 
   ( 
  order 
    
  by 
   id) 
 scn    from         [ 
  dbo 
  ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]] ) t 
   where    scn   <= 
  80 
    
  and 
   scn 
  > 
  60  
 
  sql server统计信息：
     
 表    '   [[zping.com]]   '   。扫描计数

1 ，逻辑读取 83 次，物理读取 0 次，预读 0 次，lob 逻辑读取 0 次，lob 物理读取 0 次，lob 预读 0 次。

这里看到其逻辑读才83次，数据效率很高

100000到100000-20条之间的数据

select       *       from     
(   select       *   , row_number()    over 
   ( 
  order 
    
  by 
   id) 
 scn    from         [   dbo   ] 
  . 
  [ 
  [[zping.com 
  ] 
  ]]]] ) t 
   where    scn   <   100000     
  and 
   scn 
  > 
  100000 
  - 
  20  
 
 sql server统计信息： 
     
(   19    行受影响)

表 ' [[zping.com]] ' 。扫描计数 1 ，逻辑读取

100740 次，物理读取 259 次，预读 2026 次，lob 逻辑读取 0 次，lob 物理读取 0 次，lob 预读 0 次。

100000到100000-20条之间的数据，花费了逻辑读取 100740 次，是上一个几千倍。同样是取20条数据，差距为何

这么大啊：我们对比一下执行计划：