# 如何处理 Java 线上事故 ## 引言 作为一名经验丰富的开发者,处理线上事故是我们工作中常常遇到的问题。在本文中,我将向刚入行的小白开发者介绍如何处理 Java 线上事故。我将讲解整个事故处理的流程,并提供每个步骤所需要的代码示例和解释。 ## 事故处理流程 下面是处理 Java 线上事故的基本步骤的表格形式: | 步骤 | 描述
做为企业的信息核心,机房的重要性非常突出,一旦发生影响正常使用的问题,那么在解决问题之后,写一份详细的事故报告就是非常重要。通过这份报告,一方面会追究责任,找出是如何造成的原因,另一方面引以为戒,避免日后再发生类似的问题。事故报告相当于生产企业的安全通报,大家都详细了解问题发生的原因,以后才能避免,大家也能够引起重视。<?xml:namespace prefix = o ns = "urn:
最近遇到了一起依赖升级 + 异常数据引发的线上事故,教训惨痛,本文对此进行回故和总结。背景起因是我们使用的服务框架版本比较老,GC 次数的 metrics 打点一直为 0,咨询了相关同学后,决定升级框架。升级的过程中,出现了 useofinternalpackagexxxnotallowed 的报错,又咨询了一下相关同学后,尝试使用 go mod 解决。从 go vendor 到 go mod 的
原创 2021-02-25 09:57:43
162阅读
的add方法报错,由于线上存在问题,则先修改为以下代码上线,也就是修改为我们平时正常的写法, 上线后,观察了下日志,群里回复已
原创 4月前
32阅读
案例 某天,可爱的产品经理跑过来对陈皮说,一个使用了好久,近期也未发过版的xx服务挂了!!需要赶紧处理下,并输出事故报告。 服务挂了,要尽快恢复,首先肯定使用重启大法。果不其然,运维人员以迅雷不及掩耳之势已经将服务重启了,并且服务运行也正常了。 就只剩输出事故报告了,因为作为一个内部使用服务,于是没接入ELK日志分析平台,然而在向运维人员将服务的日志文件下载下来分析的时候,运维人员反馈没有日志了
原创 2021-07-12 17:23:41
449阅读
今天给大家分享个生产事故,一个由于 MySQL 分页导致的线上事故,事情是这样的~背景一天晚上 10 点半,下班后愉快的坐在在回家的地铁上,心里想着周末的生活怎么安排。突然电话响了起来,一看是我们的一个运维同学,顿时紧张了起来,本周的版本已经发布过了,这时候打电话一般来说是
转载 2022-05-19 09:52:46
126阅读
目录案例排查优化解决案例某天,可爱的产品经理跑过来对陈皮说,一个使用了好久
原创 2022-04-06 10:12:03
5174阅读
近期,公司系统内相继发生2起110kV线路跳闸,造成多个110kV变电站失压的电力生产安全事件,目前事件正在深入调查分析。为确保公司2019年各项安全生产工作开好头、起好步,各单位要充分汲取事件教训,全面落实各项风险管控措施。现将2起事件简要情况通报如下: 一、“1·4”普洱供电局110kV城洗线跳闸造成4个110kV变电站失压事件(一)事件简况 根据2018年度红河供电局技改大修工作计划,201
前言这是帅丙真实事件,大家都知道很多公司都是有故障等级这么一说的,这就是敖丙在公司背的P0级故障,敖丙差点因此被解雇,事情经过十分惊心动魄,我的心脏病都差点复发。事故等级主要针对生产环境,划分依据类似于bug等级。P0属于最高级别事故,比如崩溃,页面无法访问,主流程不通,主功能未实现,或者在影响面上影响很大(即使bug本身不严重)。P1事故属于高级别事故,一般属于主功能上的分支,支线流程,核心次功
分析结论接口无法连接 dubbo 注册中心,会不断重试,触发 dubbo(当前版 本:dubbo-2.5.4-SNAPSHOT-jdk1.6-8.4.jar)内存泄露 bug,导致 jvm 内存逐渐耗光, 最终内存溢出。解决方法:升级dubbo版本说明:由于没有 dubbo 相关的源码,无法准确定位 dubbo 内存泄露原因,以上结论仅从数据 的相关性分析得出。现象描述2019年9月26日晚上,将
【背景介绍】写出该事故发生的场景,步骤,线上事故等级以及谁发现的问题等相关背景【发生时间】写出该事故首次发生或爆出的具体时间,精确到分钟或秒钟【问题版本】是哪一个版本,比如 SDK 1.3.4 版本【事故影响】该事故对哪些业务产生了影响,是否影响了客户以及可能造成的损失等【事故原因追踪】详细说明造成事故的整理过程。这里就比较详细的说明,事故主要责任人再造成该事故前,都做了什么,以及沟通了什么,才
我们线上有个系统是有若干个服务组成,服务之间通过thrift rpc进行通信,在调用rpc服务的时候加了一层hystrix,目的是防止“雪崩”。
3d
5e
f5
原创 2022-06-19 21:53:24
400阅读
起因:最近上线了一版关于敏感内容过滤的一个需求,半夜上线时,一切正常,but....在第二天中午时段,突然报警并有线上反馈相关功能有问题,查elk日志显示相关接口耗时很大,并且有部分连接都超时了(包括redis mysql 以及部分调用外部的http请求也是,系统响应巨慢,平常几毫秒十几毫秒的接口,突然变的无比的慢)本来是午饭午休时间,但是看到这些问题,瞬间我就清醒了,吓得我浑身哆嗦。排查说清这次
原创 2022-12-30 09:06:57
176阅读
线上事故回顾前段时间新增一个特别简单的功能,晚上上线前 Review 代码时想到公司拼搏进取的价值观临时加一行 log 日志,觉得就一行简单的日志基本上没啥问题,结果刚上完线后一堆报警,赶紧回滚了代码,找到问题删除了添加日志的代码,重新上线完毕。情景还原定义了一个 CountryDTO:public class CountryDTO { private String country;
原创 3月前
47阅读
昨天下午大神把组内几十号人召集在一起开Online bug分析大会,主要是针对近期线上事故事故原因和解决方案两个维度来分析   对金融软件来说,每一次的线上事故都有可能给公司带来重大的损失,少扣了用户的钱,为公司带来资金方面的亏损;多扣了用户的钱,则为带来不必要的合约或法律纠纷,故测试金融软件不比其他行业的软件,后者线上bug大多不会直接引起资金方面损失,最多就是用户体验不好,功能没有实现,导
下面这个文章是我看到的,确实是挺有意思的,大家对生产环境的可怕还没太多意识,转给大家看看。这下面的几点,我犯过第一条和第二条相结合的错误:我们当时在客户现场工作,上线之后为了能方便看到生产的数据以找出问题,所以我们的pl/sql都是既能连到测试库,也能连到生产库的,有一次,我删除测试库的数据delete from tableA,我意识到可能会和生产搞混,特意看了下,这个窗口连的是测试库,那个窗口连
目录背景分析数据模拟测试解决方案小结今天给大家分享个生产事故,一个由于 MySQL 分页导致的线上事故,事情
原创 2022-07-21 16:36:25
125阅读
去年在项目当中引入了Lombok插件,着实解放了双手,代替了一些重复的简单工作(Getter,Setter,toString等方法的编写),但是,在使用的过程当中,也发现了一些坑,开始的时候并没有察觉到是Lombok的问题,后来跟踪了对应的其他组件的源码,才发现是Lombok的问题!
转载 2021-07-13 15:49:31
76阅读
作者:liuxuzxx   序言 去年在项目当中引入了Lombok插件,着实解放了双手,代替了一些重复的简单工作(Getter,Setter,toString等方法的编写),但是,在使用的过程当中,也发现了一些坑,开始的时候并没有察觉到是Lombok的问题,后来跟踪了对应的其他组件的源码,才发现是Lombok的问题! Setter-Getter方法的坑 问题发现 我们在项目当中主要使用Lo
转载 2021-07-21 09:45:41
151阅读
  • 1
  • 2
  • 3
  • 4
  • 5