记一次有意思的MySQL问题排查过程引言回顾一下问题产生的背景:这几天我准备学习一下Django,遇到了要连MySQL,发现只支持8以上的版本,而我服务器MySQL版本是5.7,于是要升级,在我lsof看数据库的时候发现有一个陌生的IP在跟我的数据库建立连接(ESTABLISHED)一、问题排查我很好奇,没见过这个IP啊,此时心中最先想到的是:难道被攻击了?因为之前我的数据库密码是123456,导            
                
         
            
            
            
            周一早上刚上班,突然大量用户反馈进入网页很慢,登录服务器一看,Redis调用时间严重超时,这样高速的缓存反而变成了短板,由于数据一直没有返回,导致了请求响应变慢。
网页监控通过阿里的 Grafana 监控,服务器的 CPU 负载、内存、网络输入输出都挺正常的,所以肯定是 Redis 出现了问题。我们应用使用的是单节点的 32M 16GB 的阿里云 Redis,登录网页监控看性能监控,发现 CPU             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-12-10 15:47:52
                            
                                291阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            
 
周一早上刚上班,突然大量用户反馈进入网页很慢,登录服务器一看,Redis调用时间严重超时,这样高速的缓存反而变成了短板,由于数据一直没有返回,导致了请求响应变慢。
网页监控
通过阿里的 Grafana 监控,服务器的 CPU 负载、内存、网络输入输出都挺正常的,所以肯定是 Redis 出现了问题。
我们应用使用的是单节点的 32M 16GB 的阿里云 Redis,登录网页监控看性能监控,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-22 11:40:04
                            
                                481阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            ES集群故障排查记录            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2019-05-10 15:16:16
                            
                                2632阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            周一早上刚上班,突然大量用户反馈进入网页很慢,登录服务器一看,Redis调用时间严重超时,这样高速的缓存反而变成了短板,由于数据一直没有返回,导致了请求响应变慢。网页监控
通过阿里的 Grafana 监控,服务器的 CPU 负载、内存、网络输入输出都挺正常的,所以肯定是 Redis 出现了问题。
我们应用使用的是单节点的 32M 16GB 的阿里云 Redis,登录网页监控看性能监控,发现 CPU            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-19 15:36:07
                            
                                150阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            集群上新安装并启动了3个kafka Broker,代码打包上传至集群,运行后发现一直消费不到数据,本地idea中debug后发现,程序一直阻塞在如下程序中,陷入了死循环。  /**     * Block until the coordinator for this group is known and is ready to receive requests.     * 等待直到我们和...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-01-07 18:05:57
                            
                                801阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            413 Request Entity too large,后台没有access日志,服务器标识是nginx或者stcgw方案1:排查nginx代理配置client_max_body_size太小,默认的大小为1M,增大client_max_body_size的值为200MB
结果1:stag、preview成功方案2:排查Tomcat配置post-max-size、max-upload-size结            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-01-19 20:31:32
                            
                                392阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            集群上新安装并启动了3个kafka Broker,代码打包上传至集群,运行后发现一直消费不到数据,本地idea中debug后发现,程序一直阻塞在如下程序中,陷入了死循环。  /**     * Block until the coordinator for this group is known and is ready to receive requests.     * 等待直到我们和...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-06-21 16:05:38
                            
                                2405阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                             
         
            
            
            
            1. 问题描述:早上刚来上班,业务部门同事反应管理后台无法登录 2. 问题排查定位 2.1 服务器排查 a. 接口是否可以调通:首先自己登陆后台,发现时好时坏,偶尔接口返回【系统忙】。我们系统接口异常调不通会返回系统忙 b. 服务是否死掉或者假死:连接服务器->查看Java进程,服务正常;排除假死: ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-02 18:08:00
                            
                                582阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            select a.trx_id 事务id ,a.trx_mysql_thread_id 事务线程id,a.trx_query 事务sql from INFORMATION_SCHEMA.INNODB_LOCKS b,INFORMATION_SCHEMA.innodb_trx a where b.lo ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-12 14:14:00
                            
                                390阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            公司内部撘的zabbix服务器一直运行正常,某天突然发现zabbix-server服务启动不了了,没动过任何配置,记录下问题的排查过程1、pidfilezabbix_server.pidnotreadable(yet?)afterstart问题现象:通过查看系统命令systemctlstatuszabbix-server和journalctl-uzabbix-server-f发现一直提示Error            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2020-03-17 12:18:12
                            
                                8313阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            问题描述:应用生产环境宕机故障,通过GC日志初步判断是频繁FullGC失败造成进程挂掉,为了止损临时解决方案是调大oldgen空间大小并重启应用。根据监控可看到OldGen使用空间逐渐增加。问题排查:通过分析分析内存溢出时的dump文件,得知老年代中有99%的内存空间都被HashMap对象占用继续分析可以看到溢出风险点ExecutionRuntimeManager类对象中,而且可以看到有多个场景线            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-01-22 12:43:49
                            
                                937阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            经验之谈            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-11 15:56:50
                            
                                1493阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            排查过程最近某个线上服务经常产生线程数太多的告警,重启之后几个小时就会重现,可以确定肯定是哪里有线程泄露。上图是告警时导出的线程栈分析结果,可以看到绝大部分线程都是I/O dispatcher线程,查看具体的栈信息如下:"I/O dispatcher 3480" #1455666 prio=5 os_prio=0 tid=0x00007fc854033800 nid=0x186c runnable            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-11-08 21:49:00
                            
                                388阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录
一、jstack排查问题 
二、jmap结合MemoryAnalyzer排查问题 PlanaA
三、jmap结合MemoryAnalyzer排查问题 PlanaB
四、名词解释
五、正常排查流程总结
 
一、jstack排查问题 
生产环境最近老是发生oom
top命令查看占用内存最高的java进程为927
 top -H -p 927 查看927进程对应的线程
sudo jstack            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-13 13:32:51
                            
                                1612阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            tengine配置的全局超时时间是120s,供应商说他们的请求会超过120s。于是我针对这个域名配置了相关的超时时间。配置如下:proxy_connect_timeout       600;proxy_send_timeout          600;proxy_read_timeout          600;send_timeout                600;tengine重            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-02-18 20:24:37
                            
                                811阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            背景:某天早上9.39分,nagios监控突然报警,我们一台手机业务机器出现负载升高,达到60多,这台机器仅8核心8G内存,伴随其他监控出现sockettimeout,连接失败。一看该问题就会想到会严重影响业务,并且问题肯定会进行扩散,影响其他业务。不出所料,没到10分钟,其他同业务机器出现大面积报警,nginx出现端口链接超时,各种状态码监控失效........这种问题,不及时处理的话,客户那边            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                            精选
                                                        
                            2018-09-27 20:02:54
                            
                                10000+阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                             
         
            
            
            
            在聊天时,一网友发来消息说Linux突然断电,数据没有保存,那么在企业中要怎么保证大家的数据保存到硬盘上了呢?这使我想到这个和windows的区别,当要关闭服务器的时候,如果有人连接到windows服务器上存取数据,windows会提示有人连接到当前的服务器,以方便我们通知用户做好保存数据的准备,那么Linux就没有这么的智能了,要我们自己人工提示用户。关于Linux的关机步骤,大部分的用户以为就            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-07 09:03:24
                            
                                47阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Rsyslog一、Linux日志基础以centos6为例来讲日志1、配置日志服务的脚步是   Rpm -ql rsyslog
Vim /etc/rsyslog.conf 配置脚步
/etc/rc.d/init.d/rsyslog restart 启动服务脚本
Service rsyslog restart  sys风格的脚本
Tail  /var/log/messages, secure, 查看最            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-22 12:52:45
                            
                                251阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前几天线上收到一条告警邮件,生产环境MySQL操作发生了死锁,邮件告警的提炼出来的SQL大致如下。 update pe_order_product_info_test set end_time = '2021-04-30 23:59:59' where order_no = '111111111'            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-06-04 20:00:19
                            
                                578阅读