On call 是什么就是需要保持电话畅通,随时都可能接到电话说哪个服务挂了,哪个测试失败了等等。然后需要具体问题具体分析,直到问题缓解或者解决了为止。On call 中文一般称为值班。为什么要 on call为了保证一旦服务出现问题,能够第一时间解决,不至于照成严重的影响。什么时候需要 on call全球性的企业这时就体现出了它的优势了,不需要 24 小时 on call,而是根据时区,一般只会
原创
2021-04-17 22:14:38
2418阅读
On call 是什么就是需要保持电话畅通,随时都可能接到电话说哪个服务挂了,哪个测试失败call。具体需要做什么这里不能说太详细了,大概就是这样
原创
2022-03-30 11:46:43
2170阅读
在 Google SRE 的著作《Google运维解密》(原作名:Site Reliability Engineering: How Google Runs Production Systems)中,Google SRE 的关键成员们几乎不惜用了三个章节的篇幅描述了在 Google 他们是如何 OnCall 的。Google SRE 实践中,有一个广为人知的理念:减少琐事,用软件工程的方式解决运维
原创
2024-01-19 17:00:13
174阅读
Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。先来看一下 Notion 的解释:告警排班OnCall是指将系统的告警按照一定的轮换方式分配给运维人员值班处理。这种制度可以带来以下好处:更快的响应时间:OnCall制度可以确保有专人负责处理系统告警,减少了响应时间和修复
原创
2023-04-20 13:44:49
668阅读
高频系统,时刻ONCALL
原创
2022-07-07 06:09:36
122阅读
1.订阅发布 支持三类通信,进程内(观察者模式),进程间(内存共享),网络通信(订阅发布) var bus= BusFactory.Create(BusType.Ipc); bus.Subscribe("AA"); bus.OnCall += Bus_OnCall; bus.Publish("AA" ...
转载
2021-07-22 01:01:00
104阅读
2评论
最近跟一个朋友(化名张三)吃饭,三哥最近想离职,来找我喝酒,说天天 OnCall,出门都带着电脑,连续一年了,要崩溃了。我问:你们组就你一个人么?为啥就你自己 OnCall?三哥一脸苦涩:我们组算上老板 4 个人,老板说另外俩人不靠谱,不让他俩 OnCall,还给我画饼,说 OnCall 能提升我的技术,年底绩效普通,那俩哥们安心干开发,绩效都比我好,TMD 心塞,老子不伺候了。。。下面,据说是三
原创
2024-03-26 19:35:31
216阅读
为什么要有日志的链路追踪? 每一次调用, 都打一个标签:traceId. 这个traceId贯穿整个调用过程. 如果出错. 可以通过这个traceId获取整个调用链路的日志. 帮助快速定位错误信息;本次博客场景不是使用微服务架构, 而是简单的springboot项目. 通过http, oncall系统调用provide系统默认你有springboot基础.调用流程: 浏览器–>oncall系
转载
2024-04-19 11:16:54
0阅读
各类监控系统都会产生告警事件,于是,就产生了 FlashDuty、PagerDuty、Opsgenie 这类产品,做告警事件的收敛降噪、排班认领升级等。如果你想增强自己公司的告警事件处理能力,参考(chao xi)这些产品的功能就可以了 ?。告警集成:目标是在一个Oncall平台上处理所有告警,一般常见的监控工具,都有对接webhook的能力,因此Oncall平台可以对不同监控工具进行接口适配,提
原创
2024-08-28 14:52:14
93阅读
如何排查 OnCall 时发现的 Jenkins 线程数目过多的问题,这里有详细的问题排查分析修复过程,为之后类似的问题处理提供思路
原创
2024-11-02 22:39:19
54阅读
启动闪退的查看报错信息的方法使用文本编辑器,打开zkServer.cmd,在endlocal前添加pauseecho oncall %JAVA% "-Dzookeeper.log.dir=%ZOO_LOG_DIR%" "-Dzookeeper.root.logger=%ZOO_LOG4J_PROP%" "-Dzookeeper.log.file=%ZOO_LOG_FILE%" "-XX:+HeapDumpOnOutOfMemoryError" "-XX:OnOutOfMemoryError=cmd /
原创
2021-09-03 17:57:47
1020阅读
我们都知道SRE是一个体系化的工程,SRE体系的建设涉及的内容繁多,比如日常需求处理、容量规划、资源部署、监控告警、预案梳理、灾备演练、OnCall值班、应急事件响应、故障处理、运维自动化建设等等;其中「故障」可以算作是这众多事项的一个交汇点。
转载
2021-07-21 15:30:39
2019阅读
告警事件产生之后,会带有一些 labels、annotations、description 等信息,有时这些信息不够规整需要二次处理,有时这些信息不够丰富需要附加更多信息,才方便 SRE 等 OnCall 人员快速定位、解决问题。具体应该如何做?本文会分享一些思路,希望对大家有所帮助。
规范架构UI协作规范协作规范前后端协作规范新建项目规范流程规范技术选型规范Git规范包管理规范代码风格规范代码提交规范项目结构规范兼容规范灰度规范发布规范Oncall规范开发规范安全规范图片规范开源规范开源源码规范埋点规范监控规范性能监控规范异常监控规范私有化规范组件规范...
原创
2022-02-08 14:14:44
518阅读
规范架构UI协作规范协作规范前后端协作规范新建项目规范流程规范技术选型规范Git规范包管理规范代码风格规范代码提交规范项目结构规范兼容规范灰度规范发布规范Oncall规范开发规范安全规范图片规范开源规范开源源码规范埋点规范监控规范性能监控规范异常监控规范私有化规范组件规范...
原创
2021-05-20 20:33:12
1542阅读
副标题:当微软把分布式系统开发变成"搭积木"游戏,开发者的春天来了前言:分布式系统的"痛"与"解"还记得第一次配置微服务项目时的崩溃感吗?Docker Compose文件写到手软、Kubernetes YAML配置眼花缭乱、服务发现配置不当导致的深夜oncall、跨服务调用链路追踪像在迷宫里找出口… ...
Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者。本次采访的是来自益丰大药房的高级运维工程师张望。益丰大药房是一家连锁零售药房企业,有上万家门店
原创
2024-01-08 11:40:29
127阅读
简介: 随着容器技术的不断发展迭代,Kubernetes 已成为云原生时代的标准操作系统,那么如何构建一个稳定自愈的云原生操作系统事关重大。尤其是分布式环境下,各类硬件和软件故障已成为常态,直接导致 Kubernetes 集群工作节点时常处于一种不稳定的状态,人肉运维不仅效率低下,误操作及 24 小时 OnCall 也是巨大的挑战,因此容器服务通过托管节点池为用户提供了一个自愈的免运维的云上 Ku
转载
2021-02-03 11:22:14
285阅读
9月16日晚,小王正美滋滋地等着周董的《说好不哭》上线,但是公司的oncall电话进来,说是现在公司活动页面加载越来越慢。接完电话,小王立马打开了电脑排查问题,不然自己真的要哭了。小王利索地登上了公司的线上监控平台,发现慢请求越来越多。机智的小王立马想到,系统响应突然变慢,无外乎CPU占用过高或者Full GC次数过多这些原因。可是通过监控查看了当前的CPU和系统内存后,发现一切正常。这下可把小王
新粉可能以为我是个前端工程师,其实我不是。我是组里的全栈工程师(主前端方向),除了lead 前端项目的开发,前端项目的 CI/CD 也是我负责的;我有时也帮忙写一些API,改改后端bug(Java);轮班oncall的时候,我也需要帮忙处理一些线上的问题——大多数是些运维工作。接下来介绍一些我常用的运维技能,希望对你们也有帮助,看不懂的读者也可以当做知识扩展 —— 文章末尾有我对“前端/后端工
转载
2024-07-04 20:33:31
66阅读