我所理解的SRE、PE、DBA、SASRE这个概念我个人印象中应该14年下半年左右听到的,当时只知道是Google对岗位定义,巨牛逼的一个岗位,在网上查到SRE是叫网站稳定工程师,只要是保障稳定为主,其他就没有更深的意识了。15年开始逐渐有更多在Google工作或接触过这个岗位的专家在介绍这个概念,大家有了更进一步的认识,但是很多的细节,大家仍然是不了解的。今年年初,Google SRE
可观测性系统在任何有一定规模的企业内部,一旦推行起来整个SRE模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:指标监控:即各种指...
转载 2021-07-19 13:59:08
407阅读
可观测性系统在任何有一定规模的企业内部,一旦推行起来整个SRE模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:指标监控:即各种指标监控,比如基础资源指标,服务性能指标,业务的调用指标。日志:各种设备以及服务的运行日志监控。调用链:业务层面的调用链分析,通常在分布式系统中帮助运营、开发以及人员快速识别整体调用的瓶颈点一整套的可观测系统,它
转载 2021-05-24 14:56:43
208阅读
# 实现SRE的流程及代码示例 ## 流程概述 在Kubernetes(K8S)中,实现SRE(Site Reliability Engineering)的过程主要包括监控、调试、故障处理等步骤。下面将通过一步步的指导来教你如何实现SRE。 ### 步骤表格 | 步骤 | 描述 | |------|---------------| | 1 | 连
原创 4月前
14阅读
 2020-10-14来自:BGBiao的SRE人生链接:https://bgbiao.top/post/sre体系/可观测性系统在任何有一定规模的企业内部,一旦推行起来整个SRE模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:指标监控:即各种指标监控,比如基础资源指标,服务性能指标,业务的调用指标。日志:各种设备以及服务的运行日志
转载 2021-03-23 14:51:36
517阅读
,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:指标:即各种指...
转载 2022-04-07 16:08:40
124阅读
可能更符合国内国企实际情况的 SRE 落地.
原创 2022-12-14 10:10:09
176阅读
痛点传统竖井式IT架构(封闭、隔离、非标、难)X86 服务器硬件稳定性不足开源软件可靠性不足,且不可控出了故障,被动救火救不完转型由此催生了转型升级的需求:智能(SRE)的转型SRE模式核心职责保证:业务连续性应用连续性平台连续性职责分工综合岗 7*24 在线或远程值班业务监控业务操作故障处理应急处理专业组(由基础架构的:主机、存储、网络、中间件、数据库岗位演化而来)
SRE 的能力模型,不仅仅是技术上的,还有产品设计、标准规范制定、事后复盘总结归纳这些技术运营能力,同时还需要良好的沟通协作能力,这个就属于职场软技能。SRE以稳定性为目标,围绕着稳定这个核心,负责可用性、时延、性能、效率、变更管理、监控、应急响应和容量管理等相关的工作。管理体系上,涉及服务质量指标(SLI、SLA、SLO)、发布规则、变更规则、应急响应机制、On-Call、事后复盘机制等一系列配
SRE体系的构建和工作职责划分。可观测性系统在任何有一定规模的企业内部,一旦推行起来整个SRE模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:指标监控:即各种指标监控,比如基础资源指标,服务性能指标,业务的调用指标。日志:各种设备以及服务的运行日志监控。调用链:业务层面的调用链分析,通常在分布式系统中帮助运营、开发以及人员快速识别整
转载 2020-11-08 17:10:11
311阅读
SRE体系及稳定性建设SRESRE概念SRE的工作职责大型互联网的5个生命周期中SRE的职责代码编写资源规划系统上线运行保障系统下线稳定性建设SLAMTTR故障管理(三段式)故障前故障中故障后 SRESRE概念SRE在国内现在也叫应用,是面向用户稳定性的,也就是说对用户的服务质量负责,这也给了SRE更高的要求,要有全局视角,要对系统的全生命周期进行管理,把质量和成本工作做到前面,需要一系列的
# 使用Kubernetes进行SRE之道PDF生成 SRE(Site Reliability Engineering)是一种专注于通过软件工程方法来解决IT问题的实践方法。在Kubernetes(K8S)环境下,我们可以利用各种工具和技术来实现SRE之道PDF生成。下面将介绍整个实现过程以及每一步需要做的操作和代码示例。 ## 实现流程 以下是实现“SRE之道PDF”生成的
原创 4月前
64阅读
**SRE吗?** 作为一名经验丰富的开发者,我很高兴能够和你分享关于SRE(Site Reliability Engineering)和之间的关系。SRE是一个倡导将软件工程方法应用于IT职能的概念,主要目的是确保系统可以始终稳定高效地运行。因此,SRE与传统的有着明显的区别,更加注重自动化、规模化和可靠性。 **实现"SRE吗"的流程:** | 步骤 | 操作 |
原创 4月前
23阅读
**SRE是什么?** 作为一名经验丰富的开发者,我很高兴有机会为刚入行的小白介绍SRE是什么。SRE(Site Reliability Engineering)即站点可靠性工程,是Google公司提出的一种整合软件工程和系统理念的方式,旨在确保企业IT系统的高可用性、高稳定性和高性能。SRE工程师的主要职责是通过自动化、监控、调优等手段来提高系统的稳定性和弹性,确保系统能够持续
原创 4月前
34阅读
因欠缺相对的集中监控系统,管理人员没法及时把握运作设备与环境的运作情况。为处理上述难点,数据机房环境控制系统方案适时而生,保证迅速的主动预警、故障精准定位、故障消除,最大化确保各种机房、仓库、通信基站、高低压配电室、室外柜等情景的环境安全。 一、方案的重要性传统式的人工巡检存在下列不足:1、被动的管理方式造成管理人员对故障后知后觉,重复劳动多,工作强度大。2、建立在手工
谷歌SRE模式解读 前面我和你分享了一些关于组织架构和协作模式转型的内容,为了便于我们更加全面地了解先进的模式,今天我们再来谈一下谷歌的SRE(Site Reliability Engineer)。 同时,也期望你能在我们介绍的这些模式中找到一些共通点,只有找到这些共通点,才能更深刻 ...
转载 2021-07-28 11:36:00
497阅读
2评论
表面看是做稳定的,但是我觉得更好的一种理解方式是,以稳定性为目标,围绕着稳定这个核心,
原创 2022-10-29 11:06:26
113阅读
SRE 是一个岗位,但更是一种理念和方法论。
原创 2023-03-18 21:05:26
322阅读
1点赞
本文转载自公众号「Forrest随想录」,高效社区致力于陪伴您的职业生涯,与您一起愉快的成长。作者介绍:赵成(谦益)美丽联合集团 经理在华为和蘑菇街,近10年研发和经验,期间积累了非常丰富的电信级和互联网业务研发和经验。现在负责美丽联合集团(原蘑菇街、美丽说和淘世界)团队的管理以及体系建设工作,专注于创造价值,以及云计算时代的转型和突破。前言SRE这个概念我个人印象
转载 2020-11-09 20:07:01
1198阅读
   
转载 2019-12-09 13:43:00
309阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5