Google SRE算是行业的标杆,运维中的特种兵。简单来说,就是SRE很贵,很能干,而且主要是巧干。换句话说,不懂开发的运维,不是真正的SRE.
原创
2021-07-23 14:11:40
1436阅读
读SREGoogle运维解密有感(一)360addops团队360云计算作者有话说:这几天打算利用碎片时间读了一下"SREGoogle运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考,希望对大家有一点帮助。PS:丰富的一线技术、多元化的表现形式,尽在“HULK一线技术杂谈”,点关注哦!SRE有关SRE我就不多介绍了,中文名字叫站点
原创
2021-03-22 19:36:04
348阅读
女主宣言该文章出自于ADDOPS团队,仍然是关于Google SRE运维解密的读后感,这一篇主要聊聊值
转载
2021-08-05 18:04:45
1533阅读
SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论
原创
2023-05-17 14:13:07
126阅读
本文转载自公众号「Forrest随想录」,高效运维社区致力于陪伴您的职业生涯,与您一起愉快的成长。作者介绍:赵成(谦益)美丽联合集团 运维经理在华为和蘑菇街,近10年研发和运维经验,期间积累了非常丰富的电信级和互联网业务研发和运维经验。现在负责美丽联合集团(原蘑菇街、美丽说和淘世界)运维团队的管理以及运维体系建设工作,专注于运维创造价值,以及云计算时代运维的转型和突破。前言SRE这个概念我个人印象
转载
2020-11-09 20:07:01
1198阅读
# 实现运维SRE的流程及代码示例
## 流程概述
在Kubernetes(K8S)中,实现运维SRE(Site Reliability Engineering)的过程主要包括监控、调试、故障处理等步骤。下面将通过一步步的指导来教你如何实现运维SRE。
### 步骤表格
| 步骤 | 描述 |
|------|---------------|
| 1 | 连
我所理解的SRE、PE、DBA、SA运维SRE这个概念我个人印象中应该14年下半年左右听到的,当时只知道是Google对运维岗位定义,巨牛逼的一个岗位,在网上查到SRE是叫网站稳定工程师,只要是保障稳定为主,其他就没有更深的意识了。15年开始逐渐有更多在Google工作或接触过这个岗位的专家在介绍这个概念,大家有了更进一步的认识,但是很多的细节,大家仍然是不了解的。今年年初,Google SRE这
ADDOPS团队许斯亮 360云计算 女主宣言该文章出自于ADDOPS团队,是《Google运维解密》系列的关于问题排查的一篇分享。该文章主要是和大家聊了聊日常运维问题排查时候的一些原则与心得。推荐大家结合前面的解密系列文章一起来看,这样就能更系统的了解Google SRE在运维方面的一些精华了。希望该文章能给大家日常问题的排查能有个更好的启发。PS:丰富的一线技术、多元化的表现形式,尽在“HU
原创
2021-03-23 09:02:03
233阅读
今天我们来聊聊“问题排查”这个话题,本人到目前为止还在参与一线运维的工作,遇到过很多“稀奇古怪”的线上故障和问题,结合SRE中给出的一些方法,来说说“问题排查”那点事。
转载
2021-07-05 16:13:59
428阅读
SRE 的能力模型,不仅仅是技术上的,还有产品设计、标准规范制定、事后复盘总结归纳这些技术运营能力,同时还需要良好的沟通协作能力,这个就属于职场软技能。SRE以稳定性为目标,围绕着稳定这个核心,负责可用性、时延、性能、效率、变更管理、监控、应急响应和容量管理等相关的工作。管理体系上,涉及服务质量指标(SLI、SLA、SLO)、发布规则、变更规则、应急响应机制、On-Call、事后复盘机制等一系列配
痛点传统竖井式IT架构(封闭、隔离、非标、难运维)X86 服务器硬件稳定性不足开源软件可靠性不足,且不可控出了故障,被动救火救不完转型由此催生了转型升级的需求:运维智能(SRE)的转型SRE运维模式核心职责保证:业务连续性应用连续性平台连续性职责分工综合运维岗
7*24 在线或远程值班业务监控业务运维操作故障处理应急处理运维专业组(由基础架构的:主机、存储、网络、中间件、数据库岗位演化而来)
SRE体系及稳定性建设SRESRE概念SRE的工作职责大型互联网的5个生命周期中SRE的职责代码编写资源规划系统上线运行保障系统下线稳定性建设SLAMTTR故障管理(三段式)故障前故障中故障后 SRESRE概念SRE在国内现在也叫应用运维,是面向用户稳定性的,也就是说对用户的服务质量负责,这也给了SRE更高的要求,要有全局视角,要对系统的全生命周期进行管理,把质量和成本工作做到前面,需要一系列的
# 使用Kubernetes进行SRE运维之道PDF生成
SRE(Site Reliability Engineering)是一种专注于通过软件工程方法来解决IT运维问题的实践方法。在Kubernetes(K8S)环境下,我们可以利用各种工具和技术来实现SRE运维之道PDF生成。下面将介绍整个实现过程以及每一步需要做的操作和代码示例。
## 实现流程
以下是实现“SRE运维之道PDF”生成的
**SRE是运维吗?**
作为一名经验丰富的开发者,我很高兴能够和你分享关于SRE(Site Reliability Engineering)和运维之间的关系。SRE是一个倡导将软件工程方法应用于IT运维职能的概念,主要目的是确保系统可以始终稳定高效地运行。因此,SRE与传统的运维有着明显的区别,更加注重自动化、规模化和可靠性。
**实现"SRE是运维吗"的流程:**
| 步骤 | 操作 |
**SRE运维是什么?**
作为一名经验丰富的开发者,我很高兴有机会为刚入行的小白介绍SRE运维是什么。SRE(Site Reliability Engineering)即站点可靠性工程,是Google公司提出的一种整合软件工程和系统运维理念的运维方式,旨在确保企业IT系统的高可用性、高稳定性和高性能。SRE工程师的主要职责是通过自动化、监控、调优等手段来提高系统的稳定性和弹性,确保系统能够持续
谷歌SRE运维模式解读 前面我和你分享了一些关于运维组织架构和协作模式转型的内容,为了便于我们更加全面地了解先进的运维模式,今天我们再来谈一下谷歌的SRE(Site Reliability Engineer)。 同时,也期望你能在我们介绍的这些运维模式中找到一些共通点,只有找到这些共通点,才能更深刻 ...
转载
2021-07-28 11:36:00
497阅读
2评论
表面看是做稳定的,但是我觉得更好的一种理解方式是,以稳定性为目标,围绕着稳定这个核心,
原创
2022-10-29 11:06:26
113阅读