目前可以说大多数程序的所耗的时间大部分在于数据库查询中。打个比方,程序内部代码跑1秒,数据库查询数据需要10秒,maybe夸大了。
主要通过三种途径提高数据库查询效率:1.SQL的性能优化,2.数据库的性能优化,3.查询优化
1.SQL的性能优化
SQL语句是用户访问关系数据库中数据的唯一方法,通常在一个关系数据库上,服务器的SQL进程会使用该服务器的60%~90%的资源,大部分数据库的效率的问题都是由于SQL语句编写不善引起的,所以SQL语句的性能优化十分重要。
为了编写出高效的SQL语句,首先应按照一定的具体规范来编写SQL语句,Database administrator 都需要收集和整理一份SQL编码规范。其次实在真实数据库上对这些SQL语句进行性能测试和跟踪并不断调整,到达最优以后才正式上线运行。最后需要强调的是,随着数据量的变化和数据库版本升级后,往往会导致部分SQL性能下降,所以对SQL的跟踪优化是Database administrator的一项持续不断的工作。
2.数据库的性能优化
Database System 是一组程序作用在数据文件上对外提供服务,所以其本身的性能优化也十分重要,对其的优化工作主要是相应的参数调整。
(1) 通过见识database system的内存对象,获得系统性能指标,发现系统的性能缺陷以及原因
(2) 针对导致系统性能缺陷的原因,进行相应的参数调整(如增加数据缓存区的大小)
(3) 跟踪参数调整后系统的各项性能指标,看是否达到预期要求,否则继续调整。
例如,Oracle通常利用定时执行 statspacke.snap 包收集数据库的运行状态,然后利用程序 spreport.sql对两个才几点之间的数据产生报表,以分析这段时间数据库的各种运行指标。Sybase数据库用 sp_sysmon,sp_monitor,sp_configure 命令才采集和分析一段时间内数据库的各种运行指标。
3.查询优化
可以通过如下方法来优化查询的:
(1) 把数据、日志、索引放到不同的I/O设备上,增加读取速度。数据量越大,提高I/O越重要。
(2) 纵向、横向分割表,减少表的尺寸
(3) 根据查询条件,建立索引,优化索引、优化访问方式,限制结果集的数量量。注意填充银子要适当(最好使用默认值0)。索引应该尽量的小,使用自己数小的列建索引好,不要对涌现的几个值的列建立单一索引。
(4) 用OR的子句可以分解成多个查询,并且通过UNION 连接多个查询。它们的速度只与是否使用索引有关,如果查询需要用到联合索引,用UNION ALL执行的效率更高。
(5) 在查询SELECT语句中庸WHERE子句限制返回的行数。避免表扫描。如果返回不必要的数据,浪费了数据库的I/O资源,加重了网络的负担,降低了性能。如果表很大,在表扫描的期间将表锁住,禁止其他的连接访问表,后果很严重。
(6) 注意,在没有必要的时候不要用distinct,它同union一样会使查询变慢。
(7) 在IN后面值得列表中,将出现最频繁的值放在最前面,出现得最少的放在最后面,减少判断的次数。
(8) 一般在 groupby 和 having 子句之前就能剔除多余的行,所以尽量不要用她们来执行剔除工作。
(9) 尽量将数据的处理工作放在服务器上,减少网络的开销,如使用存储过程。存储过程是编译好的,优化过的,并且被组织到一个执行规划里,且存储在数据库中的SQL语句,是控制流语言的集合,速度当然快。
(10) 不要再一句话里再三地使用相同的函数,浪费资源,将结果放在变量里再调用更快。
另外,还可以针对大量只读查询操作进行优化,常见的方法有:
(1) 数据量教教的数据,可以考虑不存储在数据库中,而是通过程序常量的方法解决。
(2) 需要存储在数据库中的数据,可以考虑采用物化视图(索引视图)。当database administrator在视图上创建索引时。这个视图就被物化(执行)了,并且结果集被永久地保存在唯一聚簇索引中。
(3) 数据存储时可以考虑适当的数据冗余,以减少数据库表之间的连接操作,提高查询效率。
(4) 针对数据的特点,采取特定的索引类型,例如位图索引等。
个人遇到过的问题
第二种查询速度比第一种快