大家好,我叫曹林华。

现在在沪江技术中心担任资深架构师的职位,主要负责中间件产品设计与架构,承担了搜索平台、日志平台、分布式跟踪平台、实验平台等架构设计。

目前致力于解决分布式,高并发,大数据量等各种技术难题与挑战,持续优化公司基础架构产品,保证系统高可靠、高性能、高可扩展性。

之前曾经在百度任职高级工程师,主要负责大规模、高并发的消息推送技术研发工作。

从大学毕业到现在,一直在一线写代码,对于能一直在一线写代码很欣慰。在这么多年的工作经历中,设计到 PV 过亿的业务系统以及 QPS 过万的中间件,对于如何设计好这些系统,有一点微小的心得。

高可用设计是互联网系统架构的基础之一,以天猫双十二交易数据为例,支付宝峰值支付次数超过 8 万笔。大家设想一下,如果这个时候系统出现不可用的情况,那后果将不可想象。

同时,互联网企业中对系统可用性直接负责的往往是系统研发团队,无论最终问题定位在哪里,表象总是从应用层来暴露出来。所以系统架构设计时候首先需要考虑高可用的问题,包括如何及时发现问题,问题发生到如何快速修复。

所有好的架构设计首要的原则并不是追求先进,而是合理性,要与公司的业务规模和发展趋势相匹配,任何一个公司,哪怕是现在看来规模非常大的公司,比如 BAT 之类,在一开始,其系统架构也应简单和清晰的。

但随着业务范围不断扩充,业务规模不断扩大,系统渐进复杂和庞大,让所有系统都遇到高可用的问题。

那我们该如何避免类似的问题,构建高可用系统呢?

可以阅读本专栏,我将结合多年的实践经验,细致的讲述如何构建高可用系统。

本专栏总共包含 15 篇文章,分成三大模块详细解释高可用架构的相关知识

  • 概念篇:介绍高可用架构理论与演进,这块比较偏理论。不过对于我们理解整套体系还是有必须的。
  • 工程篇:介绍常见互联网分层中每一层高可用是怎么做的,包含 DNS、服务层、缓存层、数据层等
  • 问题篇:介绍怎么排查线上常用的故障,包括机器、应用层等维度故障定位

专栏每周都会更新,持续 64 天。在这将近 2 个月内,我会带着大家去全面了解高可用架构的方方面面,同时会将遇到的这些问题和对应的解决方案抛出来,希望大家不要重复我遇到过的坑。同时也期待大家提出有意思的问题。

大家还在等什么,快点加入我们吧!