谷歌SRE和DevOps的概述 Google SRE(Site Reliability Engineering)和DevOps是当前云计算时代最热门的话题之一。两者都旨在提高软件的稳定性和可靠性,使软件开发和运维团队能够更好地合作,以实现高效的产品交付。本文将重点介绍Google SRE和DevOps之间的关系,并讨论它们对现代软件开发的重要性。 首先,让我们了解一下Google SRE。SR
原创 2024-01-31 14:12:49
155阅读
本文转载自公众号「Forrest随想录」,高效运维社区致力于陪伴您的职业生涯,与您一起愉快的成长。作者介绍:赵成(谦益)美丽联合集团 运维经理在华为和蘑菇街,近10年研发和运维经验,期间积累了非常丰富的电信级和互联网业务研发和运维经验。现在负责美丽联合集团(原蘑菇街、美丽说和淘世界)运维团队的管理以及运维体系建设工作,专注于运维创造价值,以及云计算时代运维的转型和突破。前言SRE这个概念我个人印象
转载 2020-11-09 20:07:01
1397阅读
经过几年的挣扎和讨论(确切说应该是3年),老板在钉钉群以通告的方式正式告别伴随我们多年的职业Title —- PE,改名为SRE。(后续以A SRE区别Google SRE)BigDataSRE暂且不提名称变化背后的含义,对于新的称谓的意义很明显,SRE源于Google“网站可靠性工程师”的缩写。这个职位在Google内部有着“崇高”的地位,他们参与产品的设计(高扩展性、高可靠性),他们决定产品是
转载 2020-11-09 20:05:34
1159阅读
Google SRE 的著作《Google运维解密》(原作名:Site Reliability Engineering: How Google Runs Production Systems)中,Google SRE 的关键成员们几乎不惜用了三个章节的篇幅描述了在 Google 他们是如何 OnCall 的。Google SRE 实践中,有一个广为人知的理念:减少琐事,用软件工程的方式解决运维
原创 2024-01-19 17:00:13
174阅读
写在前面 最近花了一点时间阅读了《 "SRE Goolge运维解密" 》这本书,对于书的内容大家可以看看豆瓣上的介绍。总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想、实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义。 书中的一些思想也令我印象深刻,例如SR
原创 2022-03-02 15:49:48
508阅读
点击上方“朱小厮的博客”,选择“设为星标”后台回复"书",获取后台回复“k8s”,可领取k8s资料可观测性系统在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,...
转载 2022-04-22 10:02:42
228阅读
莎士比亚的《麦克白》中有三位女巫唱道:“不辞辛劳不厌烦,釜中沸沫已成澜;”,正如她们的警告得到的原比你想要的更多。该诗句十分适用网站可靠性工程师(SRES)。 尽管SRE的工作角色通常被直接定义为自动化,但事实上59%的SRE认为他们的组织中有太多的累活(定义为手动、重复、线性规模的策略性工作)。根据188名担任SRE职务的员工的调查回复,Catchpoint的第二份年度SRE报告出人意料地发现,
原创 2021-05-08 15:39:06
167阅读
读SREGoogle运维解密有感(一)360addops团队360云计算作者有话说:这几天打算利用碎片时间读了一下"SREGoogle运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考,希望对大家有一点帮助。PS:丰富的一线技术、多元化的表现形式,尽在“HULK一线技术杂谈”,点关注哦!SRE有关SRE我就不多介绍了,中文名字叫站点
原创 2021-03-22 19:36:04
385阅读
女主宣言该文章出自于ADDOPS团队,仍然是关于Google SRE运维解密的读后感,这一篇主要聊聊值
转载 2021-08-05 18:04:45
1777阅读
Google SRE算是行业的标杆,运维中的特种兵。简单来说,就是SRE很贵,很能干,而且主要是巧干。换句话说,不懂开发的运维,不是真正的SRE.
原创 2021-07-23 14:11:40
1539阅读
解读《SRE Google运维解密》
原创 2021-08-05 16:45:16
764阅读
在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面: 指标监控:即各种指标监控,比如基础资源指标,服务性能指标,业务的调用指标。 日志:各种设备以及服务的运行日志监控。 调用链:业务层面的调用链分析,通常在分布式系统中帮助运营、开发以及运维人员快速识别整体调用的瓶颈点。 一整套的可
转载 2021-09-06 10:17:33
359阅读
 SRE 是确保所有生产环境(Infra/Server/DBS 等)一直正常运行的人。每个网络科技公司基本都有这个部门。但是,这个角色不应与开发人员的角色混淆。"SRE 就是要求让一个软件工程师去设计一个运维方法的结果。 -- Ben Treynor"SRE 的关注点在于如何在发布新功能和确保它们对用户可靠之间找到平衡。SRE 主要通过如下措施来保证服务的可用性和稳定性:容量管理通过构建
转载 2024-01-09 10:24:27
159阅读
SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 GoogleSRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论
原创 2023-05-17 14:13:07
151阅读
如果系统非常安全,那么它一定可靠吗?Google曾遭遇一个有关安全性和可靠性的死循环。最终,Google的工程师用一把电钻破解了,G...
原创 2023-07-26 11:46:05
66阅读
SRE:Google运维解密》读书笔记(一)
原创 2018-02-07 14:18:31
2562阅读
在 6 月份的 DevOps Enterprise Summit 伦敦大会上,Google 客户可靠性工程师 Stephen Thorne 做演讲澄清了 SRE(站点可靠性工程,Site Reliability Engineering)的概念,并指出了为什么很多企业并不了解 SRE 的基本前提和优点。Thorne 看到,一些企业对 SRE 的主要误解,在于将 SLO(服务级别目标,service
原创 2021-05-22 13:07:56
404阅读
Site reliability engineering (SRE) 并不是一个新的术语或实践。在把 SRE 定义为一个职位名称之前,把软件工程技能和原则应用到运维领域早就已经付诸实践了。在组织层面落地 SRE,用更加积极主动的方式来构建和维护软件,可以推动一些方面的长期成功,比如提升运维效率、数据驱动的路线规划、整体稳定性达成。正是由于 SRE 的广泛采用,我们才得以获得这些优势。在这篇文章中,
SRE
原创 2023-05-06 07:49:16
257阅读
作者|ManuelPais作者|盖磊也许你对SRE还云里雾里,可能你的公司SRE实践是错误的在6月份的DevOpsEnterpriseSummit伦敦大会上,Google客户可靠性工程师StephenThorne做演讲澄清了SRE(站点可靠性工程,SiteReliabilityEngineering)的概念,并指出了为什么很多企业并不了解SRE的基本前提和优点。Thorne看到,一些企业对SRE
原创 2021-04-23 07:11:36
257阅读
DevOps和SRE(Site Reliability Engineering)是当前互联网行业中非常热门的两个概念。DevOps是Development和Operations的结合,强调开发团队和运维团队之间的协作与沟通,通过自动化和持续集成等方法,实现快速高效的软件开发和部署。而SRE则是Google提出的一种负责保障产品稳定运行的工程实践,强调自动化、监控和灾难恢复能力。 在过去的几年里,
原创 2024-03-01 11:49:16
101阅读
  • 1
  • 2
  • 3
  • 4
  • 5