Google SRE算是行业的标杆,中的特种兵。简单来说,就是SRE很贵,很能干,而且主要是巧干。换句话说,不懂开发的,不是真正的SRE.
原创 2021-07-23 14:11:40
1436阅读
解读《SRE Google解密
原创 2021-08-05 16:45:16
684阅读
读SREGoogle解密有感(一)360addops团队360云计算作者有话说:这几天打算利用碎片时间读了一下"SREGoogle解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考,希望对大家有一点帮助。PS:丰富的一线技术、多元化的表现形式,尽在“HULK一线技术杂谈”,点关注哦!SRE有关SRE我就不多介绍了,中文名字叫站点
原创 2021-03-22 19:36:04
348阅读
女主宣言该文章出自于ADDOPS团队,仍然是关于Google SRE解密的读后感,这一篇主要聊聊值
转载 2021-08-05 18:04:45
1533阅读
SRE:Google解密》读书笔记(一)
原创 2018-02-07 14:18:31
2465阅读
SRE Google 解密,是 SRE 领域的启蒙之作,讲述了 GoogleSRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论
原创 2023-05-17 14:13:07
126阅读
本文转载自公众号「Forrest随想录」,高效社区致力于陪伴您的职业生涯,与您一起愉快的成长。作者介绍:赵成(谦益)美丽联合集团 经理在华为和蘑菇街,近10年研发和经验,期间积累了非常丰富的电信级和互联网业务研发和经验。现在负责美丽联合集团(原蘑菇街、美丽说和淘世界)团队的管理以及体系建设工作,专注于创造价值,以及云计算时代的转型和突破。前言SRE这个概念我个人印象
转载 2020-11-09 20:07:01
1198阅读
# 实现SRE的流程及代码示例 ## 流程概述 在Kubernetes(K8S)中,实现SRE(Site Reliability Engineering)的过程主要包括监控、调试、故障处理等步骤。下面将通过一步步的指导来教你如何实现SRE。 ### 步骤表格 | 步骤 | 描述 | |------|---------------| | 1 | 连
原创 4月前
14阅读
我所理解的SRE、PE、DBA、SASRE这个概念我个人印象中应该14年下半年左右听到的,当时只知道是Google岗位定义,巨牛逼的一个岗位,在网上查到SRE是叫网站稳定工程师,只要是保障稳定为主,其他就没有更深的意识了。15年开始逐渐有更多在Google工作或接触过这个岗位的专家在介绍这个概念,大家有了更进一步的认识,但是很多的细节,大家仍然是不了解的。今年年初,Google SRE
 ADDOPS团队许斯亮 360云计算 女主宣言该文章出自于ADDOPS团队,是《Google解密》系列的关于问题排查的一篇分享。该文章主要是和大家聊了聊日常问题排查时候的一些原则与心得。推荐大家结合前面的解密系列文章一起来看,这样就能更系统的了解Google SRE在运方面的一些精华了。希望该文章能给大家日常问题的排查能有个更好的启发。PS:丰富的一线技术、多元化的表现形式,尽在“HU
原创 2021-03-23 09:02:03
233阅读
今天我们来聊聊“问题排查”这个话题,本人到目前为止还在参与一线的工作,遇到过很多“稀奇古怪”的线上故障和问题,结合SRE中给出的一些方法,来说说“问题排查”那点事。
转载 2021-07-05 16:13:59
428阅读
SRE 的能力模型,不仅仅是技术上的,还有产品设计、标准规范制定、事后复盘总结归纳这些技术运营能力,同时还需要良好的沟通协作能力,这个就属于职场软技能。SRE以稳定性为目标,围绕着稳定这个核心,负责可用性、时延、性能、效率、变更管理、监控、应急响应和容量管理等相关的工作。管理体系上,涉及服务质量指标(SLI、SLA、SLO)、发布规则、变更规则、应急响应机制、On-Call、事后复盘机制等一系列配
痛点传统竖井式IT架构(封闭、隔离、非标、难)X86 服务器硬件稳定性不足开源软件可靠性不足,且不可控出了故障,被动救火救不完转型由此催生了转型升级的需求:智能(SRE)的转型SRE模式核心职责保证:业务连续性应用连续性平台连续性职责分工综合岗 7*24 在线或远程值班业务监控业务操作故障处理应急处理专业组(由基础架构的:主机、存储、网络、中间件、数据库岗位演化而来)
SRE体系及稳定性建设SRESRE概念SRE的工作职责大型互联网的5个生命周期中SRE的职责代码编写资源规划系统上线运行保障系统下线稳定性建设SLAMTTR故障管理(三段式)故障前故障中故障后 SRESRE概念SRE在国内现在也叫应用,是面向用户稳定性的,也就是说对用户的服务质量负责,这也给了SRE更高的要求,要有全局视角,要对系统的全生命周期进行管理,把质量和成本工作做到前面,需要一系列的
# 使用Kubernetes进行SRE之道PDF生成 SRE(Site Reliability Engineering)是一种专注于通过软件工程方法来解决IT问题的实践方法。在Kubernetes(K8S)环境下,我们可以利用各种工具和技术来实现SRE之道PDF生成。下面将介绍整个实现过程以及每一步需要做的操作和代码示例。 ## 实现流程 以下是实现“SRE之道PDF”生成的
原创 4月前
64阅读
**SRE吗?** 作为一名经验丰富的开发者,我很高兴能够和你分享关于SRE(Site Reliability Engineering)和之间的关系。SRE是一个倡导将软件工程方法应用于IT职能的概念,主要目的是确保系统可以始终稳定高效地运行。因此,SRE与传统的有着明显的区别,更加注重自动化、规模化和可靠性。 **实现"SRE吗"的流程:** | 步骤 | 操作 |
原创 4月前
23阅读
**SRE是什么?** 作为一名经验丰富的开发者,我很高兴有机会为刚入行的小白介绍SRE是什么。SRE(Site Reliability Engineering)即站点可靠性工程,是Google公司提出的一种整合软件工程和系统理念的方式,旨在确保企业IT系统的高可用性、高稳定性和高性能。SRE工程师的主要职责是通过自动化、监控、调优等手段来提高系统的稳定性和弹性,确保系统能够持续
原创 4月前
34阅读
谷歌SRE模式解读 前面我和你分享了一些关于组织架构和协作模式转型的内容,为了便于我们更加全面地了解先进的模式,今天我们再来谈一下谷歌的SRE(Site Reliability Engineer)。 同时,也期望你能在我们介绍的这些模式中找到一些共通点,只有找到这些共通点,才能更深刻 ...
转载 2021-07-28 11:36:00
497阅读
2评论
表面看是做稳定的,但是我觉得更好的一种理解方式是,以稳定性为目标,围绕着稳定这个核心,
原创 2022-10-29 11:06:26
113阅读
SRE 是一个岗位,但更是一种理念和方法论。
原创 2023-03-18 21:05:26
322阅读
1点赞
  • 1
  • 2
  • 3
  • 4
  • 5