近日,中国旅游研究院发布的《中国国内旅游发展年度报告2017》显示,2016年全年国内旅游市场继续保持12%以上的高速增长,旅游人数和旅游收入均创历史新高。旅游市场的持续火爆对在线旅行服务提出了更高要求,除了要满足用户一站式完成国内外机票、酒店、景点的预订需求外,APP运行的速度和稳定性也不容忽视。

 

为了给用户带来完美的使用体验,美团点评旗下共有云平台——美团云与国内知名综合性旅游网站驴妈妈就在线旅行背后的基础运维进行了深入交流。驴妈妈是国内自助游的领军品牌,同时也是中国景区门票在线预订模式的开创者,在在线周边自助游领域占据行业领先优势。

 

稳定的基础平台服务

 

提起基础设施,一般会想起服务器、IDC和网络,但作为国内最大的生活服务电商平台,美团点评每日产生的订单量超过1800万单,在基础运维方面需要更多保障。美团云基础运维负责人胡湘涛介绍称,为了让业务高效地传递给用户,除了基础设施,美团点评还构建了一个坚实稳定的基础服务平台,承载着团购、外卖、点评等全部业务。

android实现驴妈妈首页 驴妈妈运营现状_运维

 

美团点评基础服务平台结构图

 

美团点评基础服务平台底层为物理层,包括服务器、网络、动力环境。上面一层是IP的控制层,比如网络、路由表、路由协议等。为了将服务稳定地交付给用户,美团云在TCP/UDP层的负载均衡和DNS上做了大量和稳定性相关的工作。

 

基础设施方面,美团云选用符合T3及以上标准IDC,还配有独立的低压配电系统。同时空调制冷方面一般选用2N或者N+1系统,任何单台机组出现问题的情况下不会对机房产生影响。同时在物理空间方面,美团云选用独立的物理空间,机房可以按照实际需求进行定制。

 

然而仅靠高标准的基础设施并不能完全保证服务的稳定性。所有非标准性的操作都可能给机房带来灾难性后果,因此,美团云在运维方面建立了完善的SOP,严格进行标准化操作。还铺设机房动力监控系统,能够看到UPS负载、电力负载、机房的温度湿度状况,外加人工24小时动环的巡检。同时,因为是物理独立的空间,美团云每季度都要在运营中的IDC进行模拟演练。

 

随着业务量的快速上涨,如何在保证数据中心扩展的同时又能保证网络稳定性?在网络建设方面,美团云选择采用双超核的架构来解决这一问题。美团云的机房主要在北京、上海,各是一个IDC的集群,同时美团云使用的是双超内网,每个IDC在建设的时候都会通过两条异路由光纤分别连到两个超核。因为实现了双超核互联,通过双线路OLP保护,主线路中断实行20毫秒的切换备用链路,在单条线路出现问题时并不会对任何业务造成影响,甚至一个单超核故障业务仍能平稳运运行。

 

一般的业务发展轨迹,会从单个IDC到同城容灾然后异地容灾,而美团云能通过北京、上海两个region,为业务提供异地容灾的支持。美团云北京—上海专线利用率即将达到50%的时候,技术人员会提发起专线扩容,保障整体的IDC群之间的互联带宽。

 

其次,美团云还在北京、上海自建了BGP平台,接入了教育网、三大运营商、以及大部分小运营商,给基础设施带来了充足的资源。BGP平台和IDC同样具备非常灵活的扩展方式,美团云BGP平台基本采用双路容灾,在任何一个网络设施出现了问题或者线路出现问题的情况下能够实现业务无感知切换。

 

胡湘涛强调,在做整体网络的架构和设计的时候,美团云非常强调网络架构的自愈能力。任何单一线路出现了问题,第一不能对业务造成任何的干扰;第二业务恢复的时候,实现平滑恢复,这是美团云在基础设施架构的设计和运维过程中遵循的最重要原则。

 

高可用的基础服务

 

android实现驴妈妈首页 驴妈妈运营现状_美团云_02

基础服务网络拓扑

 

除了稳定的基础服务平台,基础服务的高效性及高可用性同样重要,为此,胡湘涛分享了美团云的基础设施技术方案。从基础服务网络拓扑图中可以看出,ISP是美团云自建的BGP平台,下面是作为负载均衡产品的MGW。左侧是NAT集群负责将内网地址转换成公网地址,为内网的机器提供internet访问,所有的MGW、NAT都以集群方式的部署,集群可以灵活地横向扩张,避免单点问题。

 

其中,MGW是美团云自研产品,能够为用户提供高效稳定的负载均衡服务。同时对外提供API,方便跟运维自动化系统集成,业务关系系统也可以通过接口调用的方式,快速进行部署。

 

 

android实现驴妈妈首页 驴妈妈运营现状_运维_03

MGW Session同步

 

如今,单台服务器是1200万Session。在一台MGW出现故障的时候,Session可以无缝地迁移到同集群其他机器,为用户提供稳定的负载均衡服务。美团云采用二层同步机制进行Session同步,在百万级Session切换miss率为零。在大量连接时,美团云采用增量同步策略,能保障新增Session快速同步到集群内部。

 

DNS对于基础服务的重要性不言而喻,一旦DNS故障,一家网站就可能完全瘫痪。通常,技术人员会在一个IDC里面至少部署两台DNS做互备,如下图所示的传统DNS架构:

 

 

android实现驴妈妈首页 驴妈妈运营现状_运维_04

传统DNS架构

 

但在云计算平台中,传统架构并不适用。为此,美团云采用基于AnyCast架构。该架构上,所有的DNS解析请求发到交换机时,通过网络就能实现最佳选路。机器扩容也非常容易,方便整个基础设施架构的部署,简化了运维流程。

 

android实现驴妈妈首页 驴妈妈运营现状_美团云_05

 

AnyCast DNS 架构

 

 

健全的基础网络质量监控

 

有了良好的架构和方案,影响稳定性的另一个因素便是运维。胡湘涛认为,运维是决定整个平台稳定性的关键因素,如何快速发现异常找到根本原因,需依赖完善的监控体系和直观的可视化交付。

 

美团点评业务及基础设施体量非常大,情况复杂,在这种情况下,美团云构建了完善的网络质量监控系统,能够对网络状况一目了然,快速发现问题并积极响应。

 

 

android实现驴妈妈首页 驴妈妈运营现状_运维_06

内网质量监控一期架构:监控全网ICMP质量

 

在内网质量监控一期中,美团云实现了对全网ICMP质量的监控TOR下面的物理机上面部署一个Agent监控全网TOR的网络情况。但是在美团云如此大的体量下,完全依靠人工显然不现实。因此,胡湘涛的团队开发了一个叫sysop的基础设施自动化平台,里面记录了基础设施的所有资源信息,通过自动化校验信息的准确性。通过这个平台可以获取到IDC、交换机、服务器所有信息,例如监控所需的服务器SN、主机名、IP地址、上联TOR等。一旦出现丢包、延时等情况并匹配警告策略后,系统可通过短信、电话等形式通知到对应人员。

 

android实现驴妈妈首页 驴妈妈运营现状_运维_07

 

内网质量监控二期架构:监控全网路由质量

 

虽然在内网质量监控一期中,美团云完成了东西向流量端到端网络监控,但并不能实现快速发现问题。于是,内网监控的第二期架构中加入了WJ和DBA两个超核,每个IDC的内网核心是多线互联的,美团云跨机房带宽按照业务不同在80-320G之间,在核心层面最多有32条路径可达。而第二期所做的就是能够同时监测到这32条路径的网络质量。监控二期架构完成后,通过拓扑图和质量数据结合,网络工程师可直观地了解到整个网络情况。

 

此外,美团云还针对交换机、机房温度、DNS解析以及整个机房之间的专线带等构建了非常完善的监控体系。胡湘涛认为,没有人能说自己的基础设施永远不出故障,基础设施运维人员能做的就是最大程度避免故障,出现故障时能快速发现、快速定位、快速解决。 

 

有了完善的监控系统,运维人员并不能就此高枕无忧。美团云还通过监控系统,结合各项数据汇总的指标,实现了对资源的数据化运营,并且针对性的持续优化,让基础设施更加的稳定。目前,美团云在基础设施运维方面已经实现服务器操作流程的自动化、电力功耗系统的统计分析、现场可视化以及实时环境监测等。

 

在技术交流的最后,胡湘涛说:“平台发展壮大是源自于用户的选择,我们需要给用户提供更高质量的服务、更好的用户体验”。目前,美团点评已成为超6亿用户的选择,连接着450万商家,本月9日正式上线的美团旅行APP经过短短几年耕耘,也已积累近亿用户。生活方式的变革离不开技术的突破,作为技术发展的底层支撑,云计算基础设施运维在提升在线旅行用户体验的过程中扮演着重要角色。