做为企业的信息核心,机房的重要性非常突出,一旦发生影响正常使用的问题,那么在解决问题之后,写一份详细的事故报告就是非常重要。通过这份报告,一方面会追究责任,找出是如何造成的原因,另一方面引以为戒,避免日后再发生类似的问题。事故报告相当于生产企业的安全通报,大家都详细了解问题发生的原因,以后才能避免,大家也能够引起重视。<?xml:namespace prefix = o ns = "urn:
  事故现象 线上服务不定点的不能使用, 查日志发现resin服务正在重启。 由于resin所在的服务有web监控,如果web服务没有相应,则会重启resin服务。 那到底是什么导致了无法请求到web服务呢(60秒没有相应) 故障定位 1, 首先查看相应的日志: /data/logs/chewenwww/stdout.log 正常信息日志 /data/log
近期,公司系统内相继发生2起110kV线路跳闸,造成多个110kV变电站失压的电力生产安全事件,目前事件正在深入调查分析。为确保公司2019年各项安全生产工作开好头、起好步,各单位要充分汲取事件教训,全面落实各项风险管控措施。现将2起事件简要情况通报如下: 一、“1·4”普洱供电局110kV城洗线跳闸造成4个110kV变电站失压事件(一)事件简况 根据2018年度红河供电局技改大修工作计划,201
前言这是帅丙真实事件,大家都知道很多公司都是有故障等级这么一说的,这就是敖丙在公司背的P0级故障,敖丙差点因此被解雇,事情经过十分惊心动魄,我的心脏病都差点复发。事故等级主要针对生产环境,划分依据类似于bug等级。P0属于最高级别事故,比如崩溃,页面无法访问,主流程不通,主功能未实现,或者在影响面上影响很大(即使bug本身不严重)。P1事故属于高级别事故,一般属于主功能上的分支,支线流程,核心次功
下面这个文章是我看到的,确实是挺有意思的,大家对生产环境的可怕还没太多意识,转给大家看看。这下面的几点,我犯过第一条和第二条相结合的错误:我们当时在客户现场工作,上线之后为了能方便看到生产的数据以找出问题,所以我们的pl/sql都是既能连到测试库,也能连到生产库的,有一次,我删除测试库的数据delete from tableA,我意识到可能会和生产搞混,特意看了下,这个窗口连的是测试库,那个窗口连
【背景介绍】写出该事故发生的场景,步骤,线上,事故等级以及谁发现的问题等相关背景【发生时间】写出该事故首次发生或爆出的具体时间,精确到分钟或秒钟【问题版本】是哪一个版本,比如 SDK 1.3.4 版本【事故影响】该事故对哪些业务产生了影响,是否影响了客户以及可能造成的损失等【事故原因追踪】详细说明造成事故的整理过程。这里就比较详细的说明,事故主要责任人再造成该事故前,都做了什么,以及沟通了什么,才
转载 2023-10-11 08:31:22
104阅读
  中新社北京5月24日电 据伊朗伊斯兰共和国通讯社报道,伊朗武装部队总参谋部当地时间23日发布首份关于已故总统莱希及其随行人员直升机事故的调查报告,称未观察到弹痕或类似痕迹。   报告显示,该直升机沿计划航线飞行,未离开指定飞行路线。事故发生前约一分半钟,该直升机的飞行员与该直升机组的另外两架直升机进行了沟通。调查人员未在坠毁直升机的剩余部件中观察到弹痕或类似痕迹,未在塔台与机组人员的谈话中
原创 4月前
0阅读
https://mp.weixin.qq.com/s/-CPHH79AIgjrvpgYZae50gBy超神经场景描述:近日,特斯拉2018年的一场严重车祸,迎来了一场公开听证会上的调查结果。这一次,对车祸具体原因进行了说明,阐释了自动特斯拉自动驾驶系统存在的弊端,以及导致事故的其他因素。关键词:特斯拉车祸自动驾驶特斯拉的自动驾驶系统再次成为美国关注的焦点。2月25日,美国国家运输安全委员会,NTS
原创 2020-09-15 20:23:12
435阅读
上周,GitHub经历了一次事故,导致服务降级24小时11分钟。虽然平台的某些部分不受事故影响,但仍然有多个内部系统受到了影响,向用户显示了过时且不一致的内容。所幸没有用户数据丢失,但针对几秒钟数据库写入的手动调整工作仍在进行当中。在发生事故期间,Webhook无法提供服务,也无法构建和发布GitHubPages。我们对每个受影响的用户深表歉意。我们深切感受到用户对GitHub的信任,并为构建能够
原创 2021-05-22 11:27:10
116阅读
   线上有正常运营的项目文件XXXX 文件夹   研发需求将测试上的XXXXX项目部署到正式的线上服务器,成为另外一个单独项目(做了很多改动的版本)     文件夹较大打包压缩以后都有5.7G,由我直接后台打包传送过去   tar -zcvf king.XXXX.com.tar.gz xxxx.com/  
tar
原创 2013-03-18 09:35:20
576阅读
(此文记录运维事故,为类似问题提供参考。)    大约下午4点,发现一台主机web应用无法访问,迅速启动远程桌面管理,结果是无法响应,此时ping主机地址不通。    此时去机房查看问题,刀箱显示面板报8errors,点击面板选择键,异常缓慢。与hp客服沟通后初步判断为刀箱OA故障,等待备件到达。    等待期间,发现与故障主机同段地址中
原创 2014-02-25 09:16:40
921阅读
2点赞
案例 某天,可爱的产品经理跑过来对陈皮说,一个使用了好久,近期也未发过版的xx服务挂了!!需要赶紧处理下,并输出事故报告。 服务挂了,要尽快恢复,首先肯定使用重启大法。果不其然,运维人员以迅雷不及掩耳之势已经将服务重启了,并且服务运行也正常了。 就只剩输出事故报告了,因为作为一个内部使用服务,于是没接入ELK日志分析平台,然而在向运维人员将服务的日志文件下载下来分析的时候,运维人员反馈没有日志了
原创 2021-07-12 17:23:41
449阅读
目录案例排查优化解决案例某天,可爱的产品经理跑过来对陈皮说,一个使用了好久
原创 2022-04-06 10:12:03
5174阅读
来源 | The GitHub Blog译者 | 无明UTC 时间 10 月 21 日 22:52,为了更换发生故障的 100G 光纤设备,美国东海岸网络中心与美国东海岸数据中心之间的连接被断开。连接在 43 秒后恢复,但这次短暂的中断引发了一系列事故,导致 24 小时 11 分钟的服务降级。上周,GitHub 经历了一次事故,导致服务降级 24 小时 11 分钟。虽然平台的某些部分不受事故影响,
原创 2021-04-22 10:31:26
156阅读
--
原创 2022-08-18 17:39:40
520阅读
#####
原创 2022-08-02 17:33:51
58阅读
# 如何处理 Java 线上事故 ## 引言 作为一名经验丰富的开发者,处理线上事故是我们工作中常常遇到的问题。在本文中,我将向刚入行的小白开发者介绍如何处理 Java 线上事故。我将讲解整个事故处理的流程,并提供每个步骤所需要的代码示例和解释。 ## 事故处理流程 下面是处理 Java 线上事故的基本步骤的表格形式: | 步骤 | 描述
原创 2023-11-04 13:17:31
74阅读
1 resttemplate与close_wait 背景,植入resttemplate请求对外数据,发现每次请求会新建一个连接,而且完了也不关,显示close_wait,显然,在1分钟establish状态后,对方发起fin,我方ack,然后没有发fin,到这四次挥手就中断了 在以前的tcp实际中也
转载 2021-04-28 17:50:00
379阅读
2评论
# MySQL生产事故 在大规模的软件开发和运维项目中,MySQL数据库是常用的关系型数据库管理系统。然而,由于人为失误、硬件故障、网络问题等原因,MySQL生产环境中的事故时有发生。本文将介绍一些常见的MySQL生产事故,以及如何预防和解决这些问题。 ## 常见的MySQL生产事故 ### 1. 数据库性能问题 当用户量增大或者业务逻辑复杂时,数据库性能问题可能会导致响应时间延长、系统崩
原创 2023-08-16 09:37:58
59阅读
大家肯定用过Redis,也知道Redis的命令以及用法,但是假如在某些场景下,误用了一些命令,后果会非常严
转载 2022-10-14 09:45:04
51阅读
  • 1
  • 2
  • 3
  • 4
  • 5