记一次有意思的MySQL问题排查过程引言回顾一下问题产生的背景:这几天我准备学习一下Django,遇到了要连MySQL,发现只支持8以上的版本,而我服务器MySQL版本是5.7,于是要升级,在我lsof看数据库的时候发现有一个陌生的IP在跟我的数据库建立连接(ESTABLISHED)一、问题排查我很好奇,没见过这个IP啊,此时心中最先想到的是:难道被攻击了?因为之前我的数据库密码是123456,导
周一早上刚上班,突然大量用户反馈进入网页很慢,登录服务器一看,Redis调用时间严重超时,这样高速的缓存反而变成了短板,由于数据一直没有返回,导致了请求响应变慢。 网页监控通过阿里的 Grafana 监控,服务器的 CPU 负载、内存、网络输入输出都挺正常的,所以肯定是 Redis 出现了问题。我们应用使用的是单节点的 32M 16GB 的阿里云 Redis,登录网页监控看性能监控,发现 CPU
转载 2021-12-10 15:47:52
291阅读
  周一早上刚上班,突然大量用户反馈进入网页很慢,登录服务器一看,Redis调用时间严重超时,这样高速的缓存反而变成了短板,由于数据一直没有返回,导致了请求响应变慢。 网页监控 通过阿里的 Grafana 监控,服务器的 CPU 负载、内存、网络输入输出都挺正常的,所以肯定是 Redis 出现了问题。 我们应用使用的是单节点的 32M 16GB 的阿里云 Redis,登录网页监控看性能监控,
转载 2021-06-22 11:40:04
481阅读
ES集群故障排查记录
原创 2019-05-10 15:16:16
2632阅读
周一早上刚上班,突然大量用户反馈进入网页很慢,登录服务器一看,Redis调用时间严重超时,这样高速的缓存反而变成了短板,由于数据一直没有返回,导致了请求响应变慢。网页监控 通过阿里的 Grafana 监控,服务器的 CPU 负载、内存、网络输入输出都挺正常的,所以肯定是 Redis 出现了问题。 我们应用使用的是单节点的 32M 16GB 的阿里云 Redis,登录网页监控看性能监控,发现 CPU
转载 2021-06-19 15:36:07
150阅读
集群上新安装并启动了3个kafka Broker,代码打包上传至集群,运行后发现一直消费不到数据,本地idea中debug后发现,程序一直阻塞在如下程序中,陷入了死循环。 /** * Block until the coordinator for this group is known and is ready to receive requests. * 等待直到我们和...
原创 2022-01-07 18:05:57
801阅读
413 Request Entity too large,后台没有access日志,服务器标识是nginx或者stcgw方案1:排查nginx代理配置client_max_body_size太小,默认的大小为1M,增大client_max_body_size的值为200MB 结果1:stag、preview成功方案2:排查Tomcat配置post-max-size、max-upload-size结
转载 2021-01-19 20:31:32
392阅读
2评论
集群上新安装并启动了3个kafka Broker,代码打包上传至集群,运行后发现一直消费不到数据,本地idea中debug后发现,程序一直阻塞在如下程序中,陷入了死循环。 /** * Block until the coordinator for this group is known and is ready to receive requests. * 等待直到我们和...
原创 2021-06-21 16:05:38
2405阅读
1点赞
1. 问题描述:早上刚来上班,业务部门同事反应管理后台无法登录 2. 问题排查定位 2.1 服务器排查 a. 接口是否可以调通:首先自己登陆后台,发现时好时坏,偶尔接口返回【系统忙】。我们系统接口异常调不通会返回系统忙 b. 服务是否死掉或者假死:连接服务器->查看Java进程,服务正常;排除假死: ...
转载 2021-08-02 18:08:00
582阅读
2评论
select a.trx_id 事务id ,a.trx_mysql_thread_id 事务线程id,a.trx_query 事务sql from INFORMATION_SCHEMA.INNODB_LOCKS b,INFORMATION_SCHEMA.innodb_trx a where b.lo ...
转载 2021-08-12 14:14:00
390阅读
2评论
公司内部撘的zabbix服务器一直运行正常,某天突然发现zabbix-server服务启动不了了,没动过任何配置,记录下问题的排查过程1、pidfilezabbix_server.pidnotreadable(yet?)afterstart问题现象:通过查看系统命令systemctlstatuszabbix-server和journalctl-uzabbix-server-f发现一直提示Error
问题描述:应用生产环境宕机故障,通过GC日志初步判断是频繁FullGC失败造成进程挂掉,为了止损临时解决方案是调大oldgen空间大小并重启应用。根据监控可看到OldGen使用空间逐渐增加。问题排查:通过分析分析内存溢出时的dump文件,得知老年代中有99%的内存空间都被HashMap对象占用继续分析可以看到溢出风险点ExecutionRuntimeManager类对象中,而且可以看到有多个场景线
原创 2021-01-22 12:43:49
937阅读
经验之谈
转载 2021-08-11 15:56:50
1493阅读
排查过程最近某个线上服务经常产生线程数太多的告警,重启之后几个小时就会重现,可以确定肯定是哪里有线程泄露。上图是告警时导出的线程栈分析结果,可以看到绝大部分线程都是I/O dispatcher线程,查看具体的栈信息如下:"I/O dispatcher 3480" #1455666 prio=5 os_prio=0 tid=0x00007fc854033800 nid=0x186c runnable
原创 2023-11-08 21:49:00
388阅读
目录 一、jstack排查问题  二、jmap结合MemoryAnalyzer排查问题 PlanaA 三、jmap结合MemoryAnalyzer排查问题 PlanaB 四、名词解释 五、正常排查流程总结   一、jstack排查问题  生产环境最近老是发生oom top命令查看占用内存最高的java进程为927  top -H -p 927 查看927进程对应的线程 sudo jstack
JVM
原创 2021-07-13 13:32:51
1612阅读
tengine配置的全局超时时间是120s,供应商说他们的请求会超过120s。于是我针对这个域名配置了相关的超时时间。配置如下:proxy_connect_timeout 600;proxy_send_timeout 600;proxy_read_timeout 600;send_timeout 600;tengine重
原创 2023-02-18 20:24:37
811阅读
背景:某天早上9.39分,nagios监控突然报警,我们一台手机业务机器出现负载升高,达到60多,这台机器仅8核心8G内存,伴随其他监控出现sockettimeout,连接失败。一看该问题就会想到会严重影响业务,并且问题肯定会进行扩散,影响其他业务。不出所料,没到10分钟,其他同业务机器出现大面积报警,nginx出现端口链接超时,各种状态码监控失效........这种问题,不及时处理的话,客户那边
原创 精选 2018-09-27 20:02:54
10000+阅读
1点赞
在聊天时,一网友发来消息说Linux突然断电,数据没有保存,那么在企业中要怎么保证大家的数据保存到硬盘上了呢?这使我想到这个和windows的区别,当要关闭服务器的时候,如果有人连接到windows服务器上存取数据,windows会提示有人连接到当前的服务器,以方便我们通知用户做好保存数据的准备,那么Linux就没有这么的智能了,要我们自己人工提示用户。关于Linux的关机步骤,大部分的用户以为就
Rsyslog一、Linux日志基础以centos6为例来讲日志1、配置日志服务的脚步是 Rpm -ql rsyslog Vim /etc/rsyslog.conf 配置脚步 /etc/rc.d/init.d/rsyslog restart 启动服务脚本 Service rsyslog restart sys风格的脚本 Tail /var/log/messages, secure, 查看最
前几天线上收到一条告警邮件,生产环境MySQL操作发生了死锁,邮件告警的提炼出来的SQL大致如下。 update pe_order_product_info_test set end_time = '2021-04-30 23:59:59' where order_no = '111111111'
原创 2021-06-04 20:00:19
578阅读
  • 1
  • 2
  • 3
  • 4
  • 5