矢量比特的博客_DevOps,云,SRE,虚拟化,SRE心法,DevOps,linux系统_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

SRE从CMDB到SMDB的自动化探索演进——面向服务的运维

SRE从CMDB到SMDB的自动化探索演进——面向服务的运维

SRE和系统运维的最大区别，我认为SRE得在系统运维的基础上研究业务，研究系统架构、产品架构，SRE面向的是用户稳定性。大型互联网系统，模块多、依赖关系和运行环境复杂，如果不了解系统架构，在出现问题时基本就是抓瞎的，不知道服务的功能，不知道到故障后对用户的影响，不知道出了问题后查哪些指标，不知道服务依赖了哪些第三方资源，不知道服务间是怎么调度的，等等都会让SRE局限在系统外的狭窄空间，只能被动的接

运维

系统架构

SRE

devops

原创精选 2022-12-24 13:01:11 818 阅读 1点赞 1收藏

心法|大型互联网系统的告警治理——生死告警

心法|大型互联网系统的告警治理——生死告警

大型互联网系统的服务和指标都是海量的，对应的告警也特别多，即使做了很多的分级和收敛，往往很多小问题依然会触发一堆P0，反应不出产品的真实影响。因为是P0，所以大家都是绷紧神经处理，可能只是几个边缘服务异常抖动，并不影响网民用户，但循环往复，弄的大家很疲惫，长此以往，大家对P0也就不那么敏感了，和狼来了的游戏一样，质量的隐患也就这么埋下了。举例几年前我刚接手小爱、米家的运维时，发现工程师基本是通过告

sre

运维

告警

devops

原创 2022-12-23 22:51:18 511 阅读

心法| 如何高效处理一个大型互联网系统的突发故障？

心法| 如何高效处理一个大型互联网系统的突发故障？

故障处理troubleshooting是做互联网SRE最心跳的事情，没有之一，也是考验一个SRE是否能够独挡一面的最有效方式。首先它的发生是随机的，完全未知，尤其是大型互联网系统，海量的用户，故障发生后精神高度紧张，要顶着巨大的压力，用最短的时间协同各方制定方案、恢复业务，尤其考验一个人的综合素质。其次，处理期间要面临各种老板、质量部门和未知部门未知人员的盘问，各种客服报过来的用户投诉和催促（PS

系统架构

故障恢复

SRE

故障预案

原创 2022-12-21 10:41:48 266 阅读

体系|大型互联网系统全生命周期的运维管理——你真的了解SRE？

体系|大型互联网系统全生命周期的运维管理——你真的了解SRE？

关于SRE和运维体系的文章很多，但大多数学院风浓厚，本文试着从一个出身运维一线SRE管理者的角度进行总结阐述，给你一份可实操接地气的运维体系，所有感悟来自在面向大型、复杂互联网系统的治理时，尤其离不开SRE，当体量上来后，系统的用户量、模块、调用链、指标、主机、域名、4/7层、日志等等都会到一个巨大的级别，甚至还要继续增长，如何保证运维架构的合理、资源和服务管理的有序，如何经营好这些资源，用最低的

运维

调优

数据

原创精选 2022-02-18 10:52:09 1882 阅读

心法|一文吃透SRE故障预案6把刀2.0

心法|一文吃透SRE故障预案6把刀2.0

故障处理trouble shooting是每个SRE要做的日常，特别是处在快速成长期的大型互联网系统，模块多、变更多、访问量大、用户环境复杂，不就是这坏就是那坏，SRE就像一个医师，需要在故障时协同研发动各种手术去修复系统，常用的修复的方法一般会提前梳理准备好，我们称作预案。经过无数次的故障处理，发觉是有一些不变的套路的，每次故障处理基本都是围绕这几个套路在做排列组合，其中最常用的6个，我把他总结

重启

故障处理

回滚

原创精选 2022-01-15 10:26:38 639 阅读