故障演练+服务治理 背景与程序员和架构师们难舍难分的三高:高并发、高性能、高可用。其中高可用性通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性,是分布式系统架构设计中必须考虑的因素之一。如何验证及保障系统高可用性,既是本文重点描述的内容:故障演练及服务治理。产品现状(涉及到公司私密信息,已删减)目前部门产品情况、故障演练覆盖情
MySQL MHA配置与故障切换演练——MySQL 5.7.21
原创 精选 2月前
237阅读
在kakfa的集群中,只有一个Controller能够成为Leader管理整个集群,而其他未成为ControllerLeader的Broker也会创建一个KafkaController对象,他们唯一能做的事情就是当leader发生故障的时候竞争成为新的Controller。 KafkaController的启动和故障转移的过程与ZookeeperLeaderElector有着密切的关系,Zooke
mysql备份恢复mysqldump备份企业故障恢复案例: 正在运行的网站系统  mysql数据库 数据量25G,日业务量10-15M 备份策略: 每天晚上23点通过计划任务调用mysqldump执行全备脚本 故障时间点: 周四上午 开发误删除了一个表,如何恢复? 思路: 1. 停业务避免数据二次伤害 2. 找一个临时库,恢复周三23.00 全备 3. 截取 周三 23.00 --->
原创 2021-04-21 17:54:03
266阅读
MHA介绍MHA是mysql高可用的一个相对成熟的方案,可以实现故障切换。在mysql集群出现故障时,mha可以在短时间内自动完成数据库的故障切换,并在最大程度上保证数据的一致性。实现故障切花的过程: 各个mysql主从之间通过ssh通信,当master宕机时,mha尝试ssh登入到宕机的机器,保存二进制日志(binlog),从多个slave中识别出含有最新更新的slave,并将其作为备选的mas
转载 2023-08-21 10:05:51
1118阅读
  古人云:“知己知彼,百战百殆”容量预估  对于电商大促场景一般都需要进行容量规划及故障演练。容量规划,就是通过对复杂业务场景的分析,应用一定的技术手段,如压力测试、来实现对资源合理扩容、有效规划的过程。  对于电商而言,一般的核心链路就是交易链路,简易描述就是用户能够成功登陆、然后能通过浏览商品详情页进行下单订购,或者先将意向商品先加入购物车,之后通过购物车进行订购结算,在这期间会进行各种优惠
原创 2019-10-10 23:47:13
1732阅读
1点赞
# Kubernetes(K8S)故障演练指的是模拟在生产环境中发生故障的情况,以测试系统在面对故障时的表现和恢复能力。通过故障演练,可以发现系统设计的不足之处,提高系统的可靠性和稳定性。下面我将介绍如何在Kubernetes中进行故障演练的流程和具体操作步骤。 ## 故障演练流程 以下是Kubernetes中进行故障演练的流程: | 步骤 | 操作 | | ----- | -------
原创 5月前
30阅读
原创 精选 2022-05-05 21:13:01
4051阅读
1点赞
客户的一套生产环境采用的架构是Oracle ADG + Keepalived,近期需要进行切换演练,要求我这边保障。ADG本身切换倒没啥可说的,但引入keepalived软件,就需要提前研究下这个架构。其实看了下环境配置,整体思路也非常简单,说白了就是利用keepalived软件引入一个VIP,应用
转载 2020-07-14 23:58:00
238阅读
2评论
1. EventBus 是干嘛的EventBus是一款针对Android优化的发布/订阅事件总线。简化了应用程序内各组件间、组件与后台线程间的通信。优点是开销小,代码更优雅,以及将发送者和接收者解耦。如果Activity和Activity进行交互还好说,如果Fragment和Fragment进行交互着实令人头疼,如果用广播来处理,稍显麻烦并且效率也不高,传递的数据是实体类需要序列化,那么成本会有点
在云计算领域,分布式存储系统是非常重要的一环,而 Ceph 就是其中的佼佼者之一。Ceph 是一个由红帽公司维护的开源分布式存储系统,提供了高可用性、高扩展性和高性能的特性,被广泛应用于企业级云存储解决方案中。 然而,即使是最稳定可靠的系统也难免会出现故障。在 Ceph 中,故障切换是一种常见的处理故障的方式,可以确保系统的可用性和稳定性。当一个存储节点、磁盘或服务出现故障时,Ceph 集群会自
K8S故障演练工具是帮助团队在生产环境中模拟和测试故障场景以提高系统可靠性的重要工具。在这篇文章中,我将会为你介绍如何使用K8S故障演练工具来实现故障演练。首先,让我们来看一下整个流程的步骤。 | 步骤 | 操作 | | ------ | ----------- | | 1 | 创建故障场景 | | 2 | 部署故障场景 | | 3 | 模拟故障 | | 4 | 恢复故障 | | 5 | 收集并
原创 5月前
71阅读
最近线上某站点young gc有点频繁,经过排查确定了问题,这里记录一下遇到GC,三步走1. 确认是哪些对象引起的GC2. 找到这些对象是哪里构造的3. 根据情况进行优化。确认是哪些对象引起的GC一般情况下,我们可以通过jmap dump的方式把堆dump出来进行分析,但dump出来的是一个静态文件。反应的是某一时刻的情况, young gc 中的对象存活时间较短,dump出的文件不一定能反应出问
在Kubernetes(简称K8S)中进行故障演练是非常重要的,以确保集群的高可用性和稳定性。而开源的故障演练工具可以帮助我们更好地模拟和应对各种可能的故障情况。在本文中,我将向你介绍如何使用开源工具来进行K8S的故障演练,让你更好地了解和掌握这一过程。 一、准备工作 在开始之前,你需要确保已经安装好Kubernetes集群,并且对K8S的基本操作有所了解。此外,你还需要安装一个开源的故障演练
原创 4月前
46阅读
## K8S组件故障演练 ### 1. 概述 Kubernetes(K8S)是一个开源的容器编排引擎,用于自动部署、扩展和管理容器化应用程序。在实际应用中,K8S组件出现故障时可能会影响整个集群的稳定性和可用性。因此,进行K8S组件故障演练是非常重要的,以确保系统在故障发生时依然能够正常运行。 ### 2. 流程 下表展示了K8S组件故障演练的流程: | 步骤 | 操作
原创 4月前
48阅读
初始代码div全隐藏<button>1</button><button>2</button><button>3</button><div>1</div><div>2</div><div>3</div>需求效果点谁谁显示
js
原创 2023-02-11 10:57:32
83阅读
percona-toolkit是一组高级命令行工具的集合,用来执行各种通过手工执行非常复杂和麻烦的mysql和系统任务,这些任务包括:1)、检查master和slave数据的一致性2)、有效地对记录进行归档3)、查找重复的索引4)、对服务器信息进行汇总5)、分析来自日志和tcpdump的查询6)、当系统出问题的时候收集重要的系统信息percona-toolkit源自Maatkit 和Aspersa
xtrabackup搭建主从 1、清除环境 1、清除环境 从库执行: mysql> stop slave; Query OK, 0 rows affected (0.20 sec) mysql> reset slave all; Query OK, 0 rows affected (0.03 sec ...
转载 2021-07-27 10:31:00
382阅读
2评论
革新你的容器安全检测: Clair Scanner在基于容器(如Docker)的开发环境中,我们不仅仅封装了应用,同时也包括了一部分操作系统。因此,了解你的镜像中是否存在潜在的安全漏洞至关重要。尽管Docker Hub或Quay.io提供了安全扫描功能,但其异步的工作模式并不利于构建流畅的CI/CD流程。初识Clair ScannerClair Scanner 是为解决这一问题而生的工具,它将漏洞
nginx启动,重启,关闭命令 停止操作 停止操作是通过向nginx进程发送信号(什么是信号请参阅linux文 章)来进行的 步骤1:查询nginx主进程号 ps -ef | grep nginx 在进程列表里 面找master进程,它的编号就是主进程号了。 步骤2:发送信号 从容停止Nginx: kill -QUIT 主进程号 快速停止Nginx: kill -TERM 主进程号 强制停止Ngi
转载 4月前
34阅读
  • 1
  • 2
  • 3
  • 4
  • 5