SRE有关SRE我就不多介绍了,中文名字叫站点可靠性工程师,它的由来是google想通过软件工程师来解决复杂问题。 它里面有很多有意思的点,比如: 工作只能占比工作时间50%另外50%要开发工具解决问题SRE和开发工程师会轮岗这些相关概念网上很多都介绍了,我就不赘述了,我说下一些我感兴趣的点谷歌神话谷歌一直在技术领域处于世界领先位置,从bigtable的三篇论文,开源的k8s,分布式关系数
原创 4月前
86阅读
今天我们来聊聊“问题排查”这个话题,本人到目前为止还在参与一线的工作,遇到过很多“稀奇古怪”的线上故障和问题,结合SRE中给出的一些方法,来说说“问题排查”那点事。
转载 2021-07-05 16:13:59
462阅读
转载 2021-08-04 14:39:05
748阅读
 ADDOPS团队许斯亮 360云计算 女主宣言该文章出自于ADDOPS团队,是《Google解密》系列的关于问题排查的一篇分享。该文章主要是和大家聊了聊日常问题排查时候的一些原则与心得。推荐大家结合前面的解密系列文章一起来看,这样就能更系统的了解Google SRE在运方面的一些精华了。希望该文章能给大家日常问题的排查能有个更好的启发。PS:丰富的一线技术、多元化的表现形式,尽在“HU
原创 2021-03-23 09:02:03
264阅读
女主宣言该文章出自于ADDOPS团队,仍然是关于Google SRE解密的读后感,这一篇主要聊聊值
转载 2021-08-05 18:04:45
1777阅读
读SREGoogle解密有感(一)360addops团队360云计算作者有话说:这几天打算利用碎片时间读了一下"SREGoogle解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考,希望对大家有一点帮助。PS:丰富的一线技术、多元化的表现形式,尽在“HULK一线技术杂谈”,点关注哦!SRE有关SRE我就不多介绍了,中文名字叫站点
原创 2021-03-22 19:36:04
385阅读
Google SRE算是行业的标杆,中的特种兵。简单来说,就是SRE很贵,很能干,而且主要是巧干。换句话说,不懂开发的,不是真正的SRE.
原创 2021-07-23 14:11:40
1539阅读
解读《SRE Google解密》
原创 2021-08-05 16:45:16
764阅读
转载的,个人感觉写的很实在,简单明了,精辟!   工作尤其是linux,其实最考验你的能力,因为需要学习的东西实在太多, 你既要懂网络:思科华为设备的配置; 要懂性能调优:包括lamp或者lnmp的性能调优,也包括linux操作系统调优; 要懂数据库mysql或者nosql(例如mongodb): 要懂编程语言:Shell是最基本的,还要学习perl,pyth
转载 精选 2012-02-06 11:59:15
8652阅读
2评论
Google Cloud 的套件(以前称为 Stackdriver)在 Google Cloud 环境中监控应用性能,排查其中的问题并加以改善。跨 Google Cloud 及应用收集指标、日志和跟踪记录使用内置的开箱即用型信息中心和视图来监控平台及应用查询和分析这些信号设置适当的性能和可用性指标使用现有系统设置提醒和通知规则主要特性实时日志管理与分析Cloud Logging 是一项可大规模实现出色性能的全代管式服务,能够从 GKE 环境、虚拟机和 Google Cloud 服务
原创 2022-01-26 10:24:27
546阅读
2016年10月,Google云平台博客(Google Cloud Platform Blog)上更新了一篇文章,Google宣布了一个新的专业岗位,CRE(Customer Reliability Engineering),直译过来就是客户稳定性工程师。我看了介绍后,发现这是一个挺有意思的岗位设置,而且针对这个岗位国内还没有太多的解读。下面我们就来尝个鲜,一起来看一看。CRE产生的背景这个岗位出
原创 2021-05-16 15:14:19
339阅读
Google Cloud 的套件(以前称为 Stackdriver)在 Google Cloud 环境中监控应用性能,排查其中的问题并加以改善。
原创 2021-07-09 10:43:17
403阅读
《SRE:Google解密》读书笔记(一)
原创 2018-02-07 14:18:31
2562阅读
本文转载自公众号「Forrest随想录」,高效社区致力于陪伴您的职业生涯,与您一起愉快的成长。作者介绍:赵成(谦益)美丽联合集团 经理在华为和蘑菇街,近10年研发和经验,期间积累了非常丰富的电信级和互联网业务研发和经验。现在负责美丽联合集团(原蘑菇街、美丽说和淘世界)团队的管理以及体系建设工作,专注于创造价值,以及云计算时代的转型和突破。前言SRE这个概念我个人印象
转载 2020-11-09 20:07:01
1397阅读
请多多关注我的个人博客,xiaorui.cc前沿:        在腾讯,百度,阿里,360人员登录堡垒机,或者是单点登录引导的各种平台,好多都需要用动态口令令牌的,用rsa的多点,这栋系价格不便宜,国内也有些便宜的,一些游戏公司的将军令就是从国内x厂商定制买的,有兴趣的可以搜搜,价格还算可以,给你提供服务端的
原创 2014-05-23 14:43:05
7985阅读
5点赞
4评论
部署:环境规划、代码托管、自动化部署、差异配置文件处理等。监控:某个新业务上线,是否能够有效的监控、如何知道某个接口被调用的多少次?安全:都谁可以调用本业务的接口?(黑白名单),能调用多少次?(频率限制)。备份:该业务是否可以做负载均衡?负载均衡需要考虑什么(数据同步)?日志:该业务都产生哪些日志?日志如何收集、日志如何归档、日志保留时间。根据自己的经验将所需的技能分为几类:部署:系统安装、软
转载 2024-03-20 21:01:27
251阅读
的工作层次来分,又分为硬件、桌面、系统、数据库维和应用。他们的设备,小的从个人电脑,大的到数以亿计的高精尖计算设备(比如 大型机 )。根据公司 IT 系统规模的不同,团队小至1 人,大至数百人。每晚通宵达旦,为 IT 系统保驾护航。有句行话“累成狗,起的比鸡早,睡得比猪晚”。就这样还是种种抱怨和不满。我对总结成了两句话:“技术只是手段,业务才是王道”。的好坏评
转载 2023-08-30 16:31:42
657阅读
发展至今,云计算提供三种形式的云服务,基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。尽管这三种服务形式有所差异,其最终的目的就是为用户提供服务(Service)的,而不仅仅是软硬件和各种资源。下面小编将带你了解一下为何说这三种云服务最终拼的都是,以下将了解一下关于云计算的技术难点和云计算的门槛。PaaS+IaaS+SaaS云计算的技术难点到今天,云计算的工业实现已
转载 2024-02-27 13:38:34
1306阅读
应用应用负责线上服务的变更、服务状态监控、服务容灾和数据备份等工作,对服务进行例行排查、故障应急处理等工作。详细的工作职责如下所述。1.设计评审在产品研发阶段,参与产品设计评审,从的角度提出评审意见,使服务满足准入的高可用要求。2.服务管理负责制定线上业务升级变更及回滚方案,并进行变更实施。掌握所负责的服务及服务间关联关系、服务依赖的各种资源。能够发现服务上的缺陷,及时通报并推进解
转载 2023-07-27 21:04:17
1124阅读
产出的价值无非2点(无论是小事还是大事,有价值的事情,就必须要去做,方法和工具都是灵活的。1.节约成本。2.724小时保证业务不间断运行。1)成本预算必须要做,否则当业务收支平稳的时候,boss就非常关心了:1.机器配置统一化,业务也知道配置的选择,而不是迷茫,狮子大开口。2.业务人数评估(正常量和突发量)3.各业务产品功能和逻辑梳理,包括使用场景。前期怎么做,后期扩展的方案有哪些?slb-web
转载 2018-02-05 10:26:55
6821阅读
1点赞
  • 1
  • 2
  • 3
  • 4
  • 5