SRE有关SRE我就不多介绍了,中文名字叫站点可靠性工程师,它的由来是google想通过软件工程师来解决复杂运维问题。 它里面有很多有意思的点,比如: 运维工作只能占比工作时间50%另外50%要开发工具解决问题SRE和开发工程师会轮岗这些相关概念网上很多都介绍了,我就不赘述了,我说下一些我感兴趣的点谷歌神话谷歌一直在技术领域处于世界领先位置,从bigtable的三篇论文,开源的k8s,分布式关系数            
                
         
            
            
            
            今天我们来聊聊“问题排查”这个话题,本人到目前为止还在参与一线运维的工作,遇到过很多“稀奇古怪”的线上故障和问题,结合SRE中给出的一些方法,来说说“问题排查”那点事。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-07-05 16:13:59
                            
                                462阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             ADDOPS团队许斯亮 360云计算 女主宣言该文章出自于ADDOPS团队,是《Google运维解密》系列的关于问题排查的一篇分享。该文章主要是和大家聊了聊日常运维问题排查时候的一些原则与心得。推荐大家结合前面的解密系列文章一起来看,这样就能更系统的了解Google SRE在运维方面的一些精华了。希望该文章能给大家日常问题的排查能有个更好的启发。PS:丰富的一线技术、多元化的表现形式,尽在“HU            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-03-23 09:02:03
                            
                                264阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            女主宣言该文章出自于ADDOPS团队,仍然是关于Google SRE运维解密的读后感,这一篇主要聊聊值            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-05 18:04:45
                            
                                1777阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            读SREGoogle运维解密有感(一)360addops团队360云计算作者有话说:这几天打算利用碎片时间读了一下"SREGoogle运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考,希望对大家有一点帮助。PS:丰富的一线技术、多元化的表现形式,尽在“HULK一线技术杂谈”,点关注哦!SRE有关SRE我就不多介绍了,中文名字叫站点            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-03-22 19:36:04
                            
                                385阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Google SRE算是行业的标杆,运维中的特种兵。简单来说,就是SRE很贵,很能干,而且主要是巧干。换句话说,不懂开发的运维,不是真正的SRE.            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-23 14:11:40
                            
                                1539阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            转载的,个人感觉写的很实在,简单明了,精辟!
 
运维工作尤其是linux运维,其实最考验你的能力,因为需要学习的东西实在太多, 
你既要懂网络:思科华为设备的配置; 
要懂性能调优:包括lamp或者lnmp的性能调优,也包括linux操作系统调优; 
要懂数据库mysql或者nosql(例如mongodb): 
要懂编程语言:Shell是最基本的,还要学习perl,pyth            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                            精选
                                                        
                            2012-02-06 11:59:15
                            
                                8652阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            Google Cloud 的运维套件(以前称为 Stackdriver)在 Google Cloud 环境中监控应用性能,排查其中的问题并加以改善。跨 Google Cloud 及应用收集指标、日志和跟踪记录使用内置的开箱即用型信息中心和视图来监控平台及应用查询和分析这些信号设置适当的性能和可用性指标使用现有系统设置提醒和通知规则主要特性实时日志管理与分析Cloud Logging 是一项可大规模实现出色性能的全代管式服务,能够从 GKE 环境、虚拟机和 Google Cloud 服务            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-01-26 10:24:27
                            
                                546阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            2016年10月,Google云平台博客(Google Cloud Platform Blog)上更新了一篇文章,Google宣布了一个新的专业岗位,CRE(Customer Reliability Engineering),直译过来就是客户稳定性工程师。我看了介绍后,发现这是一个挺有意思的岗位设置,而且针对这个岗位国内还没有太多的解读。下面我们就来尝个鲜,一起来看一看。CRE产生的背景这个岗位出            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-05-16 15:14:19
                            
                                339阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Google Cloud 的运维套件(以前称为 Stackdriver)在 Google Cloud 环境中监控应用性能,排查其中的问题并加以改善。            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-09 10:43:17
                            
                                403阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文转载自公众号「Forrest随想录」,高效运维社区致力于陪伴您的职业生涯,与您一起愉快的成长。作者介绍:赵成(谦益)美丽联合集团 运维经理在华为和蘑菇街,近10年研发和运维经验,期间积累了非常丰富的电信级和互联网业务研发和运维经验。现在负责美丽联合集团(原蘑菇街、美丽说和淘世界)运维团队的管理以及运维体系建设工作,专注于运维创造价值,以及云计算时代运维的转型和突破。前言SRE这个概念我个人印象            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2020-11-09 20:07:01
                            
                                1397阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            请多多关注我的个人博客,xiaorui.cc前沿:        在腾讯,百度,阿里,360运维人员登录堡垒机,或者是单点登录引导的各种运维平台,好多都需要用动态口令令牌的,用rsa的多点,这栋系价格不便宜,国内也有些便宜的,一些游戏公司的将军令就是从国内x厂商定制买的,有兴趣的可以搜搜,价格还算可以,给你提供服务端的            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2014-05-23 14:43:05
                            
                                7985阅读
                            
                                                        
                                点赞
                            
                                                                                    
                                4评论
                            
                                                 
                 
                
                             
         
            
            
            
            部署:环境规划、代码托管、自动化部署、差异配置文件处理等。监控:某个新业务上线,是否能够有效的监控、如何知道某个接口被调用的多少次?安全:都谁可以调用本业务的接口?(黑白名单),能调用多少次?(频率限制)。备份:该业务是否可以做负载均衡?负载均衡需要考虑什么(数据同步)?日志:该业务都产生哪些日志?日志如何收集、日志如何归档、日志保留时间。根据自己的经验将运维所需的技能分为几类:部署:系统安装、软            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-20 21:01:27
                            
                                251阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            运维的工作层次来分,又分为硬件运维、桌面运维、系统运维、数据库运维和应用运维。他们运维的设备,小的从个人电脑,大的到数以亿计的高精尖计算设备(比如 大型机 )。根据公司 IT 系统规模的不同,运维团队小至1 人,大至数百人。每晚通宵达旦,为 IT 系统保驾护航。有句行话“累成狗,起的比鸡早,睡得比猪晚”。就这样还是种种抱怨和不满。我对运维总结成了两句话:“技术只是手段,业务才是王道”。运维的好坏评            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-30 16:31:42
                            
                                657阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            发展至今,云计算提供三种形式的云服务,基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。尽管这三种服务形式有所差异,其最终的目的就是为用户提供服务(Service)的,而不仅仅是软硬件和各种资源。下面小编将带你了解一下为何说这三种云服务最终拼的都是运维,以下将了解一下关于云计算的技术难点和云计算的门槛。PaaS+IaaS+SaaS云计算的技术难点到今天,云计算的工业实现已            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-27 13:38:34
                            
                                1306阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            应用运维应用运维负责线上服务的变更、服务状态监控、服务容灾和数据备份等工作,对服务进行例行排查、故障应急处理等工作。详细的工作职责如下所述。1.设计评审在产品研发阶段,参与产品设计评审,从运维的角度提出评审意见,使服务满足运维准入的高可用要求。2.服务管理负责制定线上业务升级变更及回滚方案,并进行变更实施。掌握所负责的服务及服务间关联关系、服务依赖的各种资源。能够发现服务上的缺陷,及时通报并推进解            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-27 21:04:17
                            
                                1124阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            产出的价值无非2点(无论是小事还是大事,有价值的事情,就必须要去做,方法和工具都是灵活的。1.节约成本。2.724小时保证业务不间断运行。1)成本预算必须要做,否则当业务收支平稳的时候,boss就非常关心了:1.机器配置统一化,业务也知道配置的选择,而不是迷茫,狮子大开口。2.业务人数评估(正常量和突发量)3.各业务产品功能和逻辑梳理,包括使用场景。前期怎么做,后期扩展的方案有哪些?slb-web            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2018-02-05 10:26:55
                            
                                6821阅读
                            
                                                        
                                点赞