线上生成问题排查

原创

弄风的画 2024-08-24 15:31:18 博主文章分类：面试题、生产问题 ©著作权

文章标签 死锁 sql mysql gateway 生产问题 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者弄风的画的原创作品，请联系作者获取转载授权，否则将追究法律责任

1、Gateway隔离问题导致CPU高负载

多个服务请求报错。查看监控，一个服务产生大量请求，占用了gateway大部分CPU资源，其他服务请求占用很少，其他服务经常报错。

添加机器，gateway进行隔离。

每个模块服务应当隔离，各占固定的gateway资源，相互不影响。

2、Gateway服务报错

下发单子时，经常会有一些单子下发不下来，业务日志也没有。查看gateway日志时，发现报错信息。搜索资料，nacos的请求数收到限制，默认100并发，后面改了配置增加到1000。

线上生成问题排查_gateway

参考资料后确定大概率是nacos中网关的hystrix.command.default.execution.isolation.semaphore.maxConcurrentRequests配置未设置好

线上生成问题排查_mysql_02

gateway的请求数收到限制，默认100并发，后面改了配置增加到1000。

hystrix:
  command:
    default:
      execution:
        isolation:
          strategy: SEMAPHORE
          thread:
            timeoutInMilliseconds:  120000
          semaphore:
            maxConcurrentRequests: 1000   //最大请求数

参考资料：

1、SpringCloud-Hystrix 报 could not acquire a semaphore for execution

2、网关默认最大并发量过低问题

3、mysql死锁问题

业务反馈某个接口一直报错，查看日志发现数据库死锁（Deadlock found when trying to get lock; try restarting transaction）。

线上生成问题排查_生产问题_03

页面excel导入数据，发现很多失败的。排查结果是mq消费者里面调feign，feign熔断了，于是把消费者放到feign对应的接口所在的项目里，进行本地消费。然后发现存在很多数据库死锁。

排查步骤：

1、使用SHOW ENGINE INNODB STATUS;查询mysql最近一次死锁日志,LATEST DETECTED DEADLOCK块，查看发生死锁的sql

线上生成问题排查_死锁_04

2、去代码里找到执行此段sql的位置

3、在代码里附近找到操作发生死锁sql的同一张表的其他sql

线上生成问题排查_生产问题_05

4、查看日志里发生死锁的索引，及其构成

线上生成问题排查_mysql_06

线上生成问题排查_sql_07

5、对比死锁信息及死锁附近sql进行分析

线上生成问题排查_gateway_08

行锁的兼容矩阵

	Gap	Insert Intention	Record	Next-Key
Gap	兼容	兼容	兼容	兼容
Insert Intention	冲突	兼容	兼容	冲突
Record	兼容	兼容	冲突	冲突
Next-Key	兼容	兼容	冲突	冲突

表注：横向是已经持有的锁，纵向是正在请求的锁。

死锁产生的必要条件有：1、临界资源 2、循环等待 3、不可剥夺 4、请求并保持破坏其中一个均可打破死锁。

通过日志分析，事务1获得并持有间隙锁gap1，事务2获得并持有间隙锁gap2，此时事务1执行插入操作，插入的数据在事务2所持有的间隙锁gap2中间，于是等待事务2释放间隙锁gap2，此时事务2执行到了插入操作，同样插入的数据在事务1持有的gap1中间，事务1与事务2形成互相等待对方释放资源，发生死锁。mysql通过策略对事务2进行回滚释放gap2，此时事务1获取到了资源完成了插入操作。

对附近sql进行分析

线上生成问题排查_gateway_09