当数据库CPU满载时,我们首先要做的是让CPU降下来,优先保证系统的可用性。

什么情况会导致数据库CPU飙升呢?

  • QPS过高: 高并发,也就是数据库承载的流量过大。
  • 慢SQL: 少量或大量慢SQL占用CPU资源,拖垮了数据库。这类慢sql通常表现为:查询的数据量过大,全表扫描OR扫描行数多、锁抢占甚至死锁、复杂查询等 。
  • Tips:少量慢SQL,但扫描行数多,也会占用大量CPU资源。

如何快速有效降低数据库CPU呢?

  • QPS过高: 找到对应的接口或SQL,针对性的限流或降级。
  • 慢SQL: 找到慢SQL对应的会话,Kill 掉会话。
  • Tips:
  • 接口限流,可通过阿里云AHAS实现;
  • SQL限流,可通过阿里云PolarDB的一键诊断->会话管理->SQL限流实现。
  • 当 Kill 掉慢SQL会话后,往往还是会有新的慢SQL请求进来,若流量未降下来,数据库CPU负载将持续过载。此时,可以结合限流手段来控制慢SQL的量,达到将数据库CPU快速降低的目的。当数据库CPU负载正常后,可以开始优化慢SQL,如建立索引等。

什么情况下可能会出现慢SQL?

  • 网络速度慢、内存不足、I/O吞吐量小和磁盘空间被占满等硬件原因。
  • 在项目初期没有对SQL的性能做好考量。
  • 没有索引或者索引失效。
  • 系统数据过多。

如何查找慢SQL或负荷最高的SQL语句?

  • 连接数据库,命令行执行show processlist语句,查找负荷最高的SQL语句。
  • 登录阿里云,通过一键诊断 -> 会话管理 -> 实例会话 ,选择要结束的会话。

有何优化手段?

  • QPS过高
  • 1)机器升级(有钱任性)
  • 2)使用缓存(没有什么是加一层不能解决的)
  • 3)使用批量操作(将多个操作合并为一个操作)
  • 4)分库分表,读写分离(降低访问压力)
  • 慢SQL
  • 1)SQL扫描数据行数过多:查看执行计划,分析是否设置了合理的索引
  • 2)SQL中有大量聚合操作:简化SQL,将逻辑提炼到业务代码中;聚合操作异步化或预处理;
  • 3)SQL返回的数据过多:分页查询
  • 4)读写较多锁竞争激烈:分库分表或读写分离
  • 5)机器性能较低:配置升级