10月18日,凡客五周年庆,官网推出了一系列促销活动。但是当天早上,用户登录凡客官网时却发现网站无法正常访问。

凡客方面称,机房业务交由IDC(互联网数据中心)托管,该机房的位置位于酒仙桥,而当天8时至9时40分,酒仙桥地区遭遇大面积停电,导致官网暂时无法访问。

在同一地区设有机房的维棉、亚马逊、优购网上鞋城等其他几家网站也都出现不同程度的访问问题。优购网上鞋城CMO徐雷在微博中表示优购网上鞋城也受到酒仙桥某IDC断电机房断电的影响,导致网站无法正常访问,到当天下午2点左右才恢复正常。

以上内容援引自《IT时报》的相关报道。

本文要探讨的是,作为如此知名的电商平台,为何如此脆弱?

实际上类似的事情在国内不少见,包括我近期正在接触的一家垂直行业门户,也存在着类似的问题。

这家门户可称得上是该行业的NO.1,流量不算大,硬件配置上用了10台2U机架式服务器,分布在两个机房,却依然在销售人员向客户演示时遭遇了网站的宕机无法访问,服务中断达几十个小时之久。类似的服务中断事件在近2年时有发生。听起来似乎不可思议,但却真实地存在并发生着。

分析下原因,国内的很多电商网站或者更广泛点说是很多互联网平台,都存在类似的问题,即重硬轻软。以为买了高配置的硬件、放在知名的IDC托管就万事大吉了,殊不知真正考验功夫的全在后面的运维和优化。

凡客的问题,至少可以看到的是把服务器放在同一个IDC,导致了机房的单点故障带来整个业务的中断,虽然把服务器分布在多个机房会增加一部分托管的费用,但实际上通过合理的架构规划,可以做到这部分费用几乎为零。特别是北京的机房带宽比其他城市还要贵一些。

至于我上面提到的那家垂直门户网站,经过对服务器的远程检测,发现虽然服务器分布在了2个机房,但并没有进行合理的架构设计和优化,所有的流量和数据库压力都集中在一个机房,另一个机房仅作为备份使用。同时系统中没有配置反向代理、负载均衡、数据库主从等高可用环境,因此10台服务器并没有物尽其用实现有效的资源负载分配。再加上多任程序员的交接及代码规范性不够,使得线上的系统没有清晰的架构,更谈不上优化,所以出现重大的宕机及恢复问题也不足为奇了。

这家公司在IT运维方面存在的根本问题在于,没有一个技术过硬、经验丰富、认真负责的技术开发及运维团队来专门保障系统的运行,仅仅寄希望于软硬件默认配置和外包人员,因此根本无法从根源上对自己的系统进行有效的管理和监测。当然这已经不仅仅是技术层面的问题了,牵扯到了团队配置和管理,不作赘述。

在和此公司老总进行沟通,并检测了解服务器状况之后,我为其提出了三种架构解决方案,其中耗费硬件最多的,也不过是7台服务器,即在反向代理、数据库、负载均衡、IDC层面都实现了双节点热备,无需增加费用和硬件即可将系统架构重构优化为健康、可靠、快速地运行状态。

目前我正在接手维护的另一家电商初创企业产品刚刚开发完成,正要部署进入试运营阶段。利用2台高配置的DELL R710服务器,通过内核虚拟化组建多个虚拟系统,能够满足系统上线初期的测试及运行,并可灵活地进行横向和纵向扩展。

综合来看,一个设计良好、规划合理的系统架构,能够在性能和费用之间寻找到最佳的平衡点,并可以根据用户的业务规模变化灵活方便的伸缩。再配合上合理的监测手段,可以实现未雨绸缪,防患于未然,确保业务的正常进行。