矢量比特的博客_DevOps,云,SRE,虚拟化,SRE心法,DevOps,linux系统

挑战总结从业经验《大厂SRE体系化实践思考》

时常会写写博客，于是想干SRE这么多年，是否可以成体系的将从业经验总结一下，形成一个在大厂SRE场景下的实践手册，内容涵盖大型互联网系统的稳定性保障、DevOps自动化、逃生能力架构设计、技术运营、SRE成长等主题，坚持挑战写到现在，乐高式的拼在一起，终成体系。文章皆是工作中的实践总结，每个场景问题的解决、方法论的提炼，均来自自己一线的工作和管理实践。通过这本实践手册，希望帮助想进入SRE这个行业

实践手册

架构设计

SRE

原创 2023-07-04 12:38:14 148 阅读

大型高并发系统的逃生能力架构要如何设计

故障是无法避免的，所以作为一个大型互联网系统，逃生能力的架构设计尤其重要，一个具备优秀逃生能力的系统，在故障发生后，可以把用户影响降到最低甚至无损，多年在小爱/米家一次次大小故障的处理和复盘中，慢慢形成了一些经验和方法的思考。大型互联网系统，模块多、依赖关系和运行环境复杂，逃生能力一定是要拿出来当做独立主题来思考设计的，目标是打造一个架构皮实的高可用系统，而不是一个脆皮，一碰就崩。为了阐述清楚如何

限流

nginx

服务器

原创 2023-04-21 20:03:33 500 阅读

大型互联网系统技术架构设计的4个基本要素

作为一名大厂SRE，对什么是好产品（技术架构角度）有深刻的感悟。一个好产品的技术架构不仅在优秀的代码本身，更体现在后期的易运维性、可扩展性、高可用性上。随着用户体量、产品功能、IaaS、PaaS的变化甚至员工的离职，随时需要动态调整架构改变策略来应对各种问题，而这些场景都是对技术架构是否优秀、是否有张力的一次次考验。如果是新产品，在早期SRE就要参与进来了，同步参与制定接入架构、部署架构、高可用架

运维

技术架构

高内聚

原创 2023-04-08 14:47:19 314 阅读

大厂https证书这样管，你还担心证书过期忘记更新？

由于证书的时效限制，因证书过期忘记更换出现的故障屡见不鲜，而且影响都比较严重，用户量越大，灾难性越强。既然大家都知道证书的破坏力，那么为什么过期问题还是接二连三的出现呢？分析看，一来证书是一个正常时期少有人关注的东西，只有过期了才知道他的破坏力，容易忽视轻敌；二来在互联网企业，随着业务线的增长，证书可能成百上千，再加上最初的使用没有做好规划，在这个背景下，叠加业务调整、人员流动，证书一多管理上的漏

服务器

证书

运维

原创 2023-02-23 11:05:54 325 阅读

认知|运维中数据的认识和应用——数据驱动运维

随着行业的发展，运维职能在发生微妙的变化，现在谈大厂SRE的方向，其实我觉得更像是技术运营，通过运营的方式技术的手段牵头协同各部门来保证产品的SLA（服务质量），控制产品的成本，提高管理的效率，从传统运维转身至SRE，SRE慢慢从后台部门走向前台，从成本部门走向生产力部门，从系统稳定性走向用户稳定性，未来甚至会参与到前端经营，SRE是有数据技术能力的。作为技术运营来说，最重要的是拿到产品运行的各种

数据

运维

监控告警

原创 2023-02-13 14:38:08 264 阅读

大厂SRE管理者要如何设计团队的DevOps自动化体系？

自动化体系在一个技术团队中尤其重要，他代表着效率和未来。在运维团队，我认为SRE自动化的终极目标就是建立一套DevOps体系，能够把所有的运维场景承载下来并全部自动化，全链路的提升SRE的工作效率、解放人力，为此在团队里我提出了自动化的北极星：能自动化的全部自动化。解放人力不是把自己干掉，我认为自动化的本质是改变了运维团队的工作结构，比如原来需要铺在一线人肉处理的事情改为自动化，鼓励SRE多用工具

运维

迭代

运维架构

原创 2023-02-10 17:07:51 242 阅读

心法|SRE如何制定科学有用的流程制度

科学的制定流程制度是非常重要的，好的流程制度能提高生产效率、降低出错，但流程制度用不好是要阻碍创新的，甚至引起工程师的反感和抵触。比如为了减少工程师出错，把工作的每个角落铺满精细的流程制度规范，每个制度事无巨细的几千上万字，无异于对工程师缚手缚脚，大家也背不过来，唯一的用途就是犯了错误追责任：看，有流程制度你不遵守。事无巨细的流程制度，是反人类、反人性的，谁能记得住呢？长期积累下去，组织的能力、效

回滚

运维

变更

原创 2023-01-05 10:00:41 275 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯