从实验到文化 - “混沌日”与持续混沌第一部分:锻炼团队的“免疫系统” - 混沌日 (Game Day)什么是“混沌日”? 混沌日是一场有计划、有组织的演习活动。在活动中,团队成员们齐聚一堂(无论是线上还是线下),在一个受控的环境中(理想情况是生产环境,但从预生产环境开始是更安全的选择),主动触发一次模拟的真实故障场景。它就像一次针对技术团队和系统的消防演习。它的价值何在? 混沌实验不仅仅测试机器
深入混乱 - 模拟网络与应用层故障第一步:准备一个多服务实验环境为了测试服务间的网络故障,我们至少需要两个服务:一个客户端和一个服务端。A. 准备服务端我们可以继续使用上一篇中创建的、拥有3个副本的 nginx-deployment。但为了让客户端能通过一个稳定的地址找到它,我们需要为它创建一个 Service。创建 nginx-service.yaml:apiVersion: v1 kind:
初试牛刀 - 使用 Chaos Mesh 进行第一次混沌实验第一步:准备实验环境我们的“混沌实验室”需要三个核心组件:一个 Kubernetes 集群、Chaos Mesh 平台、以及一个用来做实验的应用。A. 安装 Chaos Mesh我们将使用 Helm 来安装 Chaos Mesh,这是官方推荐的最简单的方式。添加 Chaos Mesh 的 Helm 仓库:helm repo add cha
混沌工程核心理念 - 为何要主动制造“混乱”?我们为何需要“混乱”?想象一下,我们已经为我们的旗舰应用构建了一套看似完美的架构:它部署在 Kubernetes 上,有多个副本保证高可用;我们设置了自动伸缩(HPA),能够应对流量高峰;我们使用了负载均衡器,能将流量均匀分配。我们相信,当其中一个副本出现故障时,系统会自动恢复,用户不会受到影响。但,真的是这样吗?如果那个 Pod 不是被干净地杀死,而
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号