Errors in file /u01/xx/db/11.2.0/admin/xx/diag/rdbms/xx/trace/xx_ckpt_120273.trc:ORA-00206: error in writing (block 3, # blocks 1) of control fileORA-00202: control file: ‘/u01/xx/db/data/cntrl03.db...
原创 2021-09-08 09:19:49
238阅读
如何完整处理一个故障,聊聊我的思路。技术人人都可以磨炼,但处理问题的思路和角度各有不同,希望这篇文章可以抛砖引玉。以一个例子为切入点 一、故障现象 应用无法访问,报错无法获取数据库连接,应用宕机。 数据库报错同期有报错,超过最大连接及异常被kill。 Mon Nov 23 00:06:23 2020
原创 2021-05-28 16:53:36
1307阅读
oracle 非正常open后ora-00600处理
原创 2018-06-02 22:49:37
1720阅读
Kubernetes(K8S)是一种用于自动部署、扩展和管理容器化应用程序的开源平台。在K8S中,宕机宕机是两个非常关键的概念,因为容器在一个集群中可能会遇到各种故障情况,如节点故障、容器故障等。在本文中,我们将深入探讨K8S中宕机宕机的概念,并演示如何通过代码来实现宕机宕机。 一、概念解析 1. 宕机(Pod Crash):当一个Pod遇到故障或无法正常运行时,我们称其为宕机宕机可能
原创 2024-05-17 11:45:19
136阅读
Oracle数据库经常会遇到CPU利用率很高的情况,这种时候大都是数据库中存在着严重性能低下的SQL语句,这种SQL语句大大的消耗了CPU资源,导致整个系统性能低下。当然,引起严重性能低下的SQL语句的原因是多方面的,具体的原因要具体的来分析,下面通过一个实际的案例来说明如何来诊断和解决CPU利用率
转载 2020-11-01 13:10:00
443阅读
文章目录1. ZooKeeper宕机2. Dubbo直连3. 负载均衡(防止单点故障)3.1 负载均衡策略3.2. 负载均衡策略配置4. 服务容错(调用失败处理机制)4.1 Failover Cluster(失败自动切换)4.2 Failfast Cluster(快速失败)4.3 Failsafe Cluster(失败安全)4.4 Failback Cluster( 失败自动恢复)4.5 For
 故事就这样悄无声息发生着?为了赶紧启动第二套方案,把从昨天半夜到今天耗费了差不多十个小时的服务认真思考了一番,是不是可以转化为脚本,这样数据量大的话也很容易插入到数据库,经过一番论证之后,想法是可行的,然后在下午五点的时候,启动了脚本也为后来隐患埋下了雷…在五点脚本跑完之后,几万条数据插入数据库中就开启了这段旅程,惊险刺激,变幻莫测?五点一刻,服务器发生了宕机,用户开始反馈,服务器没有
RHEL 7上removeipc引起oracle 莫名宕机 报ORA-27300,
原创 2018-09-03 14:28:53
1435阅读
目的:分享一下公司的db故障处理流程,主要是思想。事件描述及影响:2018年9月30日04:43点,zabbix告警odsdb2数据库疑似宕机,机房值班人员通过堡垒机无法登录数据库服务器,从其他机器也无法ssh登录该机器,同时odsdb1数据库也HANG住,通过命令无法登录数据库。根据数据库业务流程图初步分析影响的各业务。(涉及公司业务可忽略)事件排查:4:46,机房值班人员通知DBA及亦庄值班人
原创 2018-10-01 22:36:32
2792阅读
宕机,指系统无法从一个系统错误中恢复过来,或系统硬件层面出问题,以致系统长时间无响应,而不得不重启动系统的现象。它属于电脑运作的一种正常现象,任何电脑都会出现这种情况。最著名的死机,当属微软公司出品的Windows操作系统的“蓝屏”了。
原创 2019-11-01 09:43:20
1227阅读
系统上完线后不久,就宕机了,很是郁闷,对系统宕机这块没有相关解决方案,就将此问题修复的方案记录,一边自己以后查阅,也希望可以帮助遇到此问题的友友。服务器内存过小(以windows64为例)一般首先考虑是tomcat内存过小,查看错误日志文件,是否是内存过小问题,内存过小,增加tomcat的内存,如果部署项目是通过点击tomcat/bin目录下的start.bat,我们需要这样修改:1, 打开tom
转载 2024-04-06 10:37:02
33阅读
# 实现宕机处理流程 宕机处理是Kubernetes(K8S)中重要的一部分,可以保证集群的高可用性。宕机是指某个节点不可用,K8S会通过一系列的操作来确保集群的服务继续正常运行。 下面我们用表格展示一下宕机处理的步骤: | 步骤 | 操作 | | -------- | ---------- | | 1 | 检测宕机的节点 | | 2 | 将该节点上的Pod迁移至其他健康节点上 | | 3
原创 2024-05-17 11:44:17
144阅读
问题提出说起高可用配置,首先就要提到服务器宕机的问题,硬件或者软件都是可能会出毛病的,一旦出毛病,机器提供的服务就会挂掉,所以,一般情况下,是使用负载均衡来解决服务器宕机问题。负载均衡就是:配多台服务器,提供同一种服务,一台挂掉,其他的可以暂时顶上。nginx负载均衡可以参考我的另一篇文章:nginx负载均衡nginx高可用配置nginx通过反向代理和负载均衡可以解决服务器的宕机问题,可是,ngi
转载 2024-05-25 17:20:24
94阅读
引言早期的业务都是基于单体节点部署,由于前期访问流量不大,因此单体结构也可满足需求,但随着业务增长,流量也越来越大,那么最终单台服务器受到的访问压力也会逐步增高。时间一长,单台服务器性能无法跟上业务增长,就会造成线上频繁宕机的现象发生,最终导致系统瘫痪无法继续处理用户的请求。从上面的描述中,主要存在两个问题: ①单体结构的部署方式无法承载日益增长的业务流量。 ②当后端节点宕机后,整个系统会陷入瘫痪
一、发现问题下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。二、排查思路简单分析下可能出问题的地方,分为5个方向:系统本身代码问题 内部下游系统的问题导致的雪崩效应 上游系统调用量突增 http请求第三方的问题 机器本身的问题三、开始排查查看日志,没有发现集中的错误日志,初步排除代码逻辑处理错误。
转载 2023-12-23 23:10:13
110阅读
     对于我们而言,经常会遇到服务器服务出现异常的情况,一般情况下,我们可以通过查看应用日志解决。但是有些特殊情况就不适用了。 例如:服务器有段时间总是莫名挂掉了;应用访问变得特别慢;cpu占用突然变高又突然变低等等,这些就涉及到服务器管理相关操作。最常见的异常:1.oom异常,服务器kill应用,我们通常可以通过查看/var/log/mess
转载 2024-01-01 20:26:01
99阅读
如果主从复制架构中出现宕机的情况,需要分情况看:1. 从Redis宕机  相对而言比较简单,Redis从库重新启动后会自动加入到主从架构中,自动完成同步数据;
转载 2023-05-18 17:57:23
98阅读
对于JVM的内存写过的文章已经有点多了,而且有点烂了,不过说那么多大多数在解决OOM的情况,于此,本文就只阐述这个内容,携带一些分析和理解和部分扩展内容,也就是JVM宕机中的一些问题,OK,下面说下OOM的常见情况:第一类内存溢出,也是大家认为最多,第一反应认为是的内存溢出,就是堆栈溢出:那什么样的情况就是堆栈溢出呢?当你看到下面的关键字的时候它就是堆栈溢出了:java.lang.OutOfMem
转载 2023-12-10 08:23:41
55阅读
整理 | 苏宓宕机时时有,但近期特别多。这边苹果服务器发生大规模宕机,导致 App Store、Apple Music、Books 等十几项服务中断,另一边全球知名代码托管平台 GitHub 也出现了此种情况。不过,针对宕机事件,GitHub 迅速进行跟进并公开了最新的调查报告,究其原因,GitHub 多次宕机竟与 MySQL 数据库有关。1.GitHub 宕机原因分析有媒体统计,GitHub 在
转载 2024-02-24 07:53:47
46阅读
背景springboot使用redisTemplate访问redis cluster(三主三从),底层是Lettuce,当其中一个master挂掉后,slave正常升为master,程序报错 Redis commond timed out after 6 seconds。解决手动连接集群,正常读写,确定为应用程序的问题查看应用程序的redis 集群配置,没有问题查看网上的解决办法,发现是Lettu
  • 1
  • 2
  • 3
  • 4
  • 5