我们重构了从监控数据的采集、处理到报警通知的整个流程,并建立了一个统一的监控平台。我们的主监控链路以红色标识
酷家乐监控负责人——少丰TakinTalks稳定性社区专家团成员,酷家乐监控负责人、技术专家。主要专注稳定性保障、新一代监控系统的研发工作。此
一分钟精华速览 酷家乐开发魔方语言的目的是解决其2B SaaS系统在复杂微服务架构下的故障定位难题,以提升系统稳定性并加速故障恢复。由于原监控工具操作复杂,需要人工逐项点击且依赖经验,导致处理效率低下。魔方语言通过自动化根因分析,显著提升了故障处理的覆盖率和准确率,从而减少了重复操作,降低了技术门槛,有效提高了客户满意度和产品竞争力。初步成效显示,大部分典型故障定位时长缩短90%以上 ,已进入1分
TakinTalks稳定性社区专家团成员,新东方教育科技集团高级经理,SRE负责人。负责新东方全集团内业务运维保障工作。
一分钟精华速览 在双减政策影响下,新东方面临业务缩减和资源紧张的局面,迫切需要技术调整和优化以应对成本压力并提高效率。面对人手减少、技术标准化不足和技术栈复杂等挑战,公司制定了通过建立标准化的可观测性体系来提升运维和研发效率的目标,旨在降低硬件和运营成本。通过一系列改革措施,新东方成功提升了故障响应速度,实现了数据的标准化分类、监控平台的功能升级,以及应用健康评分和决策灭火健康度看板的开发。这些改
货拉拉监控平台负责人——柯圣TakinTalks 稳定性社区专家团成员,货拉拉监控平台负责人。曾任职于携程、饿了么
数字业务连续性最佳实践》一书深入探讨了数字化时代下业务连续性的核心问题,结合丰富的案例和实践经验,为您提供了全
一分钟精华速览 在月活超千万的大规模业务背景下,货拉拉遭遇了多云环境下的监控碎片化、规划无序等问题。为了应对这些挑战,货拉拉开发了一站式监控平台——Monitor。该平台的部署有效地实现了对核心应用的监控和报警全覆盖,显著提高了应急响应的效率:超过 72%的云应急事件能在 5 分钟内被识别和处理,同时,接近 80%的事件能在 1 分钟内被检测到,并有近 70%的事件在 5 分钟内得到准确。详细
一分钟精华速览 超 30 位专家共创,近 20 篇最佳实践,共计 15 万字。 联合所有编写成员正式发布,限量赠送,即日起申领。(方式见文末) 为什么整理行业最佳实践? 大量实践证明,分布式系统稳定性的提升,不仅仅需要从技术工具发力,还涉及到组织、制度流程、人员能力等方方面面的问题。而每家企业的组织关系、制度流程、技术工具,人员能力往往有自己的实际情况。 很难说直接有一套理论方法论,按照方法论一
一分钟精华速览 面对业务侧和架构侧的双重“降本+提效”需求,转转结合自家业务的特性进行二次开发,构建出一套集业务服务、架构中间件、运维资源于一体的立体式监控平台。转转借此平台实现了对于各业务线的全方位监控和报警。 在构建这个监控系统的过程中,转转围绕简化链路、权限与看板规划、自主研发的报警系统,以及打通内部信息系统等核心扩展点进行了深度优化。欢迎跟随文章深入理解转转如何通过一体化监控落地实践,提升
转转存储服务负责人——苑 冲TakinTalks稳定性社区专家团成员,转转存储服务负责人,负责消息中间件(MQ)、键值(KV)存
哔哩哔哩资深开发工程师——王程田TakinTalks 稳定性社区专家团成员,哔哩哔哩资深开发工程师。2020 年加入 B 站先后负责事件平台,链路
一分钟精华速览 B 站的业务规模和用户群体不断扩大,对于服务的稳定性和可用性的要求也日益增高。这就需要 B 站的监控告警系统能够及时、准确地发现和定位问题,以便尽快解决,维护好用户的使用体验。 本文是对 B 站在告警监控系统上的一次重要迭代和优化的详细记录。文章详细阐述了 B 站对告警平台设计思路和优化迭代,以及在实现过程中遇到的问题和解决方法。特别是对于告警定位的精准性和定位效率的提升,文章给出
一分钟精华速览去哪儿网的原有监控系统在指标数量上展现出了强大实力——上亿指标量和百万级的告警量,但在故障数据方面却稍显不足——订单类故障平均发现时间长达 4 分钟,仅有 20%的订单类故障能在 1 分钟内被发现,近半数的故障处理时长超过 30 分钟。为了解决这些问题,去哪儿网决定从优化故障指标出发,对故障发现、故障根因定位、故障修复等各个环节展开全面优化。本文将深入探讨这一系列优化改革的详细过程,
在降低存储成本方面,VM 的表现较好,在我们的环境测试中,其存储成本只有 RRDTool 的 1/20 左右。同时,可观测性中的读写是
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号