解决思路:
1)定位问题 traceId分析调用链路的各阶段的用时,找到耗时长的地方。skywalking、Arthas
2)解决方法:
数据库慢sql:
通过explain执行计划分析,可能存在以下问题;
- 锁表
- 未加索引、未走索引
- sql语句编写不规范,是否是小表驱动大表,是否join的表超过三张
- 单表数据量是否太大,考虑分库分表
调用第三方接口慢:
- 计算平均的接口请求时间,设置合理的超时时间,过了超时时间直接返回。例如:业务高峰期,服务不稳定,超过了超时时间,则可以快速失败,然后重新请求,可以把重试的次数和时间放配置中心,如果事务性操作,插入、更新,需要考虑幂等性。
- sentinel或hsytrix限流熔断框架,防止被第三方接口拖垮
- 循环调用是否可以更改为单次批量调用,减少IO损耗
- 缓存结果
中间件慢:
- redis是否存在热key,考虑上本地缓存,guava Cache,设置refreshAfterWrite刷新策略;是否存在大key,可以做拆分
程序逻辑慢:
- 非法校验逻辑前置,减少无用数据穿透
- 循环调用改单次,减少IO
- 同步改异步 串行改并行,如completableFuture、mq 。例如:用户查询信息接口需要去调用户查询接口200ms、积分查询接口150ms、成长值接口100ms。此时,如果逐一调用,那总耗时就是三个接口合起来的值200+150+100ms。如果改并行调用,只需要最长时间的值200ms。又例如,用户新建账号,需要发短信、记录操作日志,发短信以及记录操作日志不影响我们主流程,此时就可以用mq去处理。
- 锁是否合理,锁力度太大,或者设计不合理,悲观锁是否可以替换为乐观锁?
- 日志打印是否有必要?
- 优化gc参数
- 查询限制数量,进行分页查,避免一次性查询数据过多。滚动分页,前端可以返回上一次查询的最大结果,然后后端根据结果去查下一页数据。