# 如何处理 Java 线上事故 ## 引言 作为一名经验丰富的开发者,处理线上事故是我们工作中常常遇到的问题。在本文中,我将向刚入行的小白开发者介绍如何处理 Java 线上事故。我将讲解整个事故处理的流程,并提供每个步骤所需要的代码示例和解释。 ## 事故处理流程 下面是处理 Java 线上事故的基本步骤的表格形式: | 步骤 | 描述
做为企业的信息核心,机房的重要性非常突出,一旦发生影响正常使用的问题,那么在解决问题之后,写一份详细的事故报告就是非常重要。通过这份报告,一方面会追究责任,找出是如何造成的原因,另一方面引以为戒,避免日后再发生类似的问题。事故报告相当于生产企业的安全通报,大家都详细了解问题发生的原因,以后才能避免,大家也能够引起重视。<?xml:namespace prefix = o ns = "urn:
前言这是帅丙真实事件,大家都知道很多公司都是有故障等级这么一说的,这就是敖丙在公司背的P0级故障,敖丙差点因此被解雇,事情经过十分惊心动魄,我的心脏病都差点复发。事故等级主要针对生产环境,划分依据类似于bug等级。P0属于最高级别事故,比如崩溃,页面无法访问,主流程不通,主功能未实现,或者在影响面上影响很大(即使bug本身不严重)。P1事故属于高级别事故,一般属于主功能上的分支,支线流程,核心次功
   线上有正常运营的项目文件XXXX 文件夹   研发需求将测试上的XXXXX项目部署到正式的线上服务器,成为另外一个单独项目(做了很多改动的版本)     文件夹较大打包压缩以后都有5.7G,由我直接后台打包传送过去   tar -zcvf king.XXXX.com.tar.gz xxxx.com/  
tar
原创 2013-03-18 09:35:20
576阅读
(此文记录运维事故,为类似问题提供参考。)    大约下午4点,发现一台主机web应用无法访问,迅速启动远程桌面管理,结果是无法响应,此时ping主机地址不通。    此时去机房查看问题,刀箱显示面板报8errors,点击面板选择键,异常缓慢。与hp客服沟通后初步判断为刀箱OA故障,等待备件到达。    等待期间,发现与故障主机同段地址中
原创 2014-02-25 09:16:40
908阅读
2点赞
1 resttemplate与close_wait 背景,植入resttemplate请求对外数据,发现每次请求会新建一个连接,而且完了也不关,显示close_wait,显然,在1分钟establish状态后,对方发起fin,我方ack,然后没有发fin,到这四次挥手就中断了 在以前的tcp实际中也
转载 2021-04-28 17:50:00
377阅读
2评论
# MySQL生产事故 在大规模的软件开发和运维项目中,MySQL数据库是常用的关系型数据库管理系统。然而,由于人为失误、硬件故障、网络问题等原因,MySQL生产环境中的事故时有发生。本文将介绍一些常见的MySQL生产事故,以及如何预防和解决这些问题。 ## 常见的MySQL生产事故 ### 1. 数据库性能问题 当用户量增大或者业务逻辑复杂时,数据库性能问题可能会导致响应时间延长、系统崩
原创 2023-08-16 09:37:58
59阅读
下面这个文章是我看到的,确实是挺有意思的,大家对生产环境的可怕还没太多意识,转给大家看看。这下面的几点,我犯过第一条和第二条相结合的错误:我们当时在客户现场工作,上线之后为了能方便看到生产的数据以找出问题,所以我们的pl/sql都是既能连到测试库,也能连到生产库的,有一次,我删除测试库的数据delete from tableA,我意识到可能会和生产搞混,特意看了下,这个窗口连的是测试库,那个窗口连
--
原创 2022-08-18 17:39:40
520阅读
#####
原创 2022-08-02 17:33:51
58阅读
为加强和规范紧急事故/故障的处理和报告流程,保证事故/故障的快速恢复,使事故损失降低到最低程度,特制定本制度。 一、适用范围 本流程适用于XXX所有产品线,所有线上的事故处理。 线上事故是指在线上服务中出现的功能故障或中断、数据错误等现象,对用户体检、流量、收入、品牌产生严重影响的现象。 除通常意义
算法同学想自己提升下主机的glibc版本,区别运维同学使用container的方式来解决环境问题。他们直接做以下操作 wget http://ftp.gnu.org/gnu/glibc/glibc-2.28.tar.gz tar zxvf glibc-2.28.tar.gz cd glibc-2.2 ...
转载 2021-09-16 10:57:00
611阅读
2评论
ITIL学习-知识管理和服务级别管理ITIL学习-变更管理和配置管理ITIL学习-问题管理和访问管理ITIL学习-事故管理ITIL学习-运营、技术、应用管理和技术管理ITIL学习-作用、原则、生命周期事故管理视频链接事故:it服务无计划中断或者it服务质量下降目标:尽快恢复正常服务运营(asap)来源:告警,用户通告,技术人员价值:检测和解决事故的能力,减少业务停机时间,支持服务期的高可用性事故
原创 2020-06-28 15:13:13
1593阅读
十字路口发生交通事故,很多人在围观。一晚到的人想看个究竟,但挤不进去。便急中生智,大声嚷到:“快闪开,让我进去,我是伤者的父亲。”人们闪开了路,此人走近一看,原来是一头受伤的驴躺在地上,众人哄堂大笑。
转载 2007-11-11 23:33:42
474阅读
  在实际开发中经常会用到多线程协作来处理问题,锁是处理线程安全不可缺少的机制。在JAVA中可以通过至少三种方式来实现线程锁。 synchronized修饰符,这种锁机制是虚拟机实现的一种锁。Lock接口的实现类,这种是JAVA程序实现的锁机制。CAS      余下内容将结合具体的例子来看看这三种锁机制的不通,以及介绍锁实现原理。锁机制实现介绍 
转载 2017-09-19 18:45:00
80阅读
【背景介绍】写出该事故发生的场景,步骤,线上,事故等级以及谁发现的问题等相关背景【发生时间】写出该事故首次发生或爆出的具体时间,精确到分钟或秒钟【问题版本】是哪一个版本,比如 SDK 1.3.4 版本【事故影响】该事故对哪些业务产生了影响,是否影响了客户以及可能造成的损失等【事故原因追踪】详细说明造成事故的整理过程。这里就比较详细的说明,事故主要责任人再造成该事故前,都做了什么,以及沟通了什么,才
一、温馨提醒1)接下来的内容,请抱着看戏的态度阅览2)如果内容给您带来不适,请尽快关闭二、情景还原1)两周前,让我接手一个新项目2)还没开始熟悉项目,需要让我两周内完成3)项目流程与需求想结合,搞了两天,知道是怎么个情况4)对比现在实现与需求调整,想吐的感觉油然而生5)代码跟*一样,根本改不了。不带犹豫卷土重来,从0开始6)跟*一样的代码,大概情况是这么个样子    
原创 2022-11-25 10:38:34
120阅读
本篇博文主要包含:线程安全的基本概念synchronized关键字如何保证线程安全的用法死锁现象线程三大特性:原子性、可见性和有序性Java内存模型(JMM)volatile 关键字保证可见性java.util.concurrent.atomic并发包线程的局部变量ThreadLocal的用法一. 线程安全的基本概念 当我们编写程序的时候可能会绕不过去线程安全问题,遇到了又如何解决呢?首先先来看看
最近遇到了一起依赖升级 + 异常数据引发的线上事故,教训惨痛,本文对此进行回故和总结。背景起因是我们使用的服务框架版本比较老,GC 次数的 metrics 打点一直为 0,咨询了相关同学后,决定升级框架。升级的过程中,出现了 useofinternalpackagexxxnotallowed 的报错,又咨询了一下相关同学后,尝试使用 go mod 解决。从 go vendor 到 go mod 的
原创 2021-02-25 09:57:43
162阅读
  • 1
  • 2
  • 3
  • 4
  • 5