#概述 线上故障通常是指大规模的影响线上服务可用性的问题或者事件,通俗点讲就是:掉‘坑’里了,这个‘坑’就是线上故障线上故障处理过程可以形象地表达为:‘踩坑’、‘跳坑’、‘填坑’、‘避坑’。 线上故障处理不仅是一项技术活,更是对技术人员/技术团队反应能力、决策能力、判定能力、组织能力的考验。面 ...
转载 2021-09-06 18:07:00
183阅读
2评论
概述线上故障通常是指大规模的影响线上服务可用性的问题或者事件,通俗点讲就是:掉‘坑’里了,这个‘坑’就是线上故障线上故障处理过程可以形象地表达为:‘踩坑’、‘跳坑’、‘填坑’、‘避坑’。线上故障处理不仅是一项技术活,更是对技术人员/技术团队反应能力、决策能力、判定能力、组织能力的考验。面对突发的生产故障,需要快速定位问题,找到解决方案,快速实施解决方案并不是一件容易的事情。本文主要包括如下内
转载 2017-05-04 18:34:30
412阅读
##墨菲定律任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事情总会出错如果担心某个事情发生,那么它更有可能发生墨菲定律暗示我们,如果担心某种情况会发生,那么它更有可能发生,久而久之就一定会发生。这警示我们,在互联网公司,对生成环境发生的任何怪异现象和问题都不要轻视,对其背后的原因一定要调查清楚。同样,海恩法则也强调任何严重的事故背后都是很多次小问题的积累,当到一定量级后
原创 精选 2018-02-27 18:52:33
10000+阅读
4点赞
2评论
墨菲定律任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事情总会出错如果担心某个事
原创 2021-12-31 16:49:51
325阅读
无论是运维或开发,和 Linux 打交道、在服务器上分析系统性能是每个技术人员的日常。然而,性能优化也是软件系统中最有挑战的工作之一,就算看了很多资料和书籍,但一旦涉及到...
转载 2021-07-27 14:51:24
140阅读
互联网服务线上问题定位分析
原创 2022-08-26 14:05:09
95阅读
 作者|郭蕾嘉宾|张云柳故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增大。滴滴现在服务近 4 亿乘客、1700 多万司机、覆盖 400 多个城市,超过 10 个业务线提供服务,业务的高速增长对稳定性工作来说是个极大的挑战。为了了解滴滴在故障处理以及稳定性建设方面的工作,InfoQ 记者采访了滴滴资深运维工程师张云柳。另外,张云柳也将会在 9 月 1
原创 2021-04-25 15:39:15
973阅读
前言 说起线上故障,程序员应该都经历过,从故障处理恢复过程中我们能快速提高。踩坑多了,慢慢也就成了大牛。这道题也是大厂的面试官们特别喜欢问的问题之一,从候选人对这道题的回答过程中...
转载 2020-12-14 08:57:00
153阅读
2评论
  导读:有哪些常见的线上故障如何快速定位问题?本文详细总结工作中的经验,从服务器、Java应用、数据库、Redis、网络和业务六个层面分享线上故障排查的思路和技巧。较长,同学们可收藏后再看。   前言线上定位问题时,主要靠监控和日志。一旦超出监控的范围,则排查思路很重要,按照流程化的思路来定位问题,能够让我们在定位问题时从容、淡定,快速的定位到线上的问题。 线上问题定位思维导图一  服务
原创 2021-06-30 09:38:46
471阅读
有哪些常见的线上故障如何快速定位问题?本文详细总结工作中的经验,再也不怕调优与排查
原创 2021-06-21 14:12:13
699阅读
作者:飒然Hang https://www.rowkey.me/blog/2018/11/22/online debug/ 线上运行的Java应用突然没有响应、响应缓慢,进程突然消失,遇到这些情况应该如何应对呢? 推荐去我的博客阅读更多: 1. "Java JVM、集合、多线程、新特性系列教程" 2
原创 2021-05-25 13:26:02
204阅读
前言 下面信息裁剪了一些,有的不确定了就拍脑袋定了,大体情况还是和实际相似。 整体过程 最开始接到告警 一个周六的 9:00 接到钉钉告警A应用线上 499 数量大量增加, A应用的背景介绍 先说下A应用的背景,我们A应用每天上亿次访问,主要是给别的厂商买接口的,按照各个厂商的调用量收钱,A 应用的
原创 2022-04-02 11:26:53
319阅读
前言 在发生故障切换后,经常遇到的问题就是同步报错,下面是最近收集的报错信息。 记录删除失败 在master上删除一条记录,而slave上找不到 Last_SQL_Error: Could not execute Delete_rows event on table hcy.t1; Can't fi
原创 7月前
95阅读
线上故障排查完整套路 - 从 CPU、磁盘、内存、网络、GC CPU 磁盘 内存 GC问题 网络 线上故障主要会包括cpu、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍。 同时例如jstack、jmap等工具也是不囿于一个方面的问题的,基
原创
Soy
2021-08-10 16:53:04
256阅读
线上故障主要会包括 CPU、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍。同时例如 jstack、jmap 等工具也是不囿于一个方面的问题的,基本上出问题就是 df、free、top 三连,然后依次 jstack、jmap 伺候,具体问题具体分析即可。CPU一般来讲我们首先会排查 CPU 方面的问题。CPU 异常往往还是比较好定位的。原
转载 2023-05-30 11:54:59
237阅读
线上故障主要会包括 CPU、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍。同时例如 jstack、jmap 等工具也是不囿于一个方面的问题的,基本上出问题就是...
转载 2022-03-29 17:16:28
97阅读
线上故障主要会包括 CPU、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层
转载 2021-07-06 15:08:39
153阅读
ELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具。Elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有:分
原创 2018-08-13 15:51:01
7336阅读
1点赞
1评论
      Java线上故障主要会包括 CPU、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍。同时例如 jstack、jmap 等工具也是不囿于一个方面的问题的,基本上出问题就是 df、free、top 三连,然后依次 jstack、jmap 伺候,具体问题具体分析。     
原创 2023-02-17 10:19:20
243阅读
  • 1
  • 2
  • 3
  • 4
  • 5