5月13日美国太平洋时间下午12:30(北京时间5月14日3:30),中国电信经历了一次重大故障持续了将近5小时,后续又持续几个小时。与此同时,正值中美贸易政策问题关系紧张之际,不仅让人猜测地理政治的动机。然而这样想会忽略掉很多人并不知道中国和互联网客观现实。此次中断是一个发掘中国互联网线连通现状的绝佳机会。



一、我们发现了什么


昨天,最早从下午开始,我们的全球观测点探测中国电信的国际因特网流量进口和出口均出现大量丢包。丢包间歇性的持续了很多小时,主要是中国大陆的网络基础设施受到较大影响,而且也波及了中国电信的新加坡和美国包括洛杉矶等多个节点。


此次整个长时间持续中断过程中,路由转发到受到影响故障节点的流量全都被丢弃了,也就是说部分在中国国内和国外的用户,使用浏览器或者应用程序访问的大量国外网站均出现了中断。 中国的用户尝试访问架设在国外的网站会受到影响,与此同时,国外的用户试图访问中国国内网站也受到影响。


虽然说不专门针对西方世界网站和服务,但是很多美国的网站服务,如苹果,亚马逊,微软,Slack,Workday,SAP等等网站服务,在整个故障窗口期也受到了影响。 下图展示了受到网络故障波以及影响的部分网站和服务。

中国电信 宕机 5 个小时:AWS、Azure、谷歌云、SAP、NTT、Akamai等受影响_java

图一: 受到中国电信网络故障影响的云服务


在故障过程的顶峰时期,受到中国电信骨干网故障, 我们探测到超过100多个服务受到干扰。 我们也探测到了基于地理信息的网络中断信息。两张不同时间的分布式地图,展示如下。


中国电信 宕机 5 个小时:AWS、Azure、谷歌云、SAP、NTT、Akamai等受影响_java_02

图二:网络中断期中国电信中断故障点的地理信息变化图


最密集的网络中断发生在起初从太平洋时间12:30开始的3个小时内, 但是更多的网络服务在接下来的数小时继续受到波及。下图3 展示了特定服务受到中断影响时间线。从太平洋时间12:30开始,到亚马逊云计算服务开始丢包故障,并且持续了将近5个小时。 下图可视化的展示了从太平洋时间17:30-17:45期间,到亚马逊云计算服务持续被中国电信路由器丢包的过程。


中国电信 宕机 5 个小时:AWS、Azure、谷歌云、SAP、NTT、Akamai等受影响_java_03

图三: 在太平洋时间12:30-17:45时间段,中国电信用户访问亚马逊云计算服务受到影响


另外一个受到中断美国的服务–Cloudflare的DNS服务也受到了此次网络故障影响。 举个例子,托管在cloudflare的WeWork的域名。从路径可视化展示的下图中,可以看到到Cloudflare的dns服务(最右侧,ip为173.245.58.135的绿点—-这个是位于美国境内的,路由前缀为173.245.58.0/24的ip段。)流量在中国境内被中国电信的路由器丢弃了。结果导致了很多在中国国内的用户无法访问WeWork网站。


中国电信 宕机 5 个小时:AWS、Azure、谷歌云、SAP、NTT、Akamai等受影响_java_04

图四:Cloudflare管理的dns服务受到影响,导致WeWork域名解析失效



二、深度互联的中国


中断现在恢复了,但是在千眼(ThousandEyes–作者所在公司),我们相信每次因特网的中断无一例外都是我们学习的好机会。 


这里有两个可能不会被普遍接受的观点:

第一,多数人把“功夫墙”理解为,为了把中国用户紧紧封闭起来,隔离于其他全球互联网的一套整体管理规则。他们认为,功夫墙分两部分, 一部分功夫墙内有中国大量的用户和为这些用户服务的网络基础设施。例外一部分是“功夫墙“外是除去中国的互联网。然而实际却是中国可以和外部的网站和服务互联的–至少为商业利益服务的网站和服务是可以的。


中国的互联网提供商(ISP)的标准操作程序允许访问大多数西方世界基于云的商业服务. 从中国境内访问符合中国利益的的网站,是利于国内国外公司有效开展业务的。一般来说,你可以在中国境内访问很多位于美国的网站和服务。


第二,大多数人可能没有意识到中国的网络提供商的全球存在。然而,如上面图2所示, 中国电信控制和管理的基础设施范围已经扩展到,超出中国的地理边界之外。 中国电信网络提供商也维护着全球因特网的互联,和全球很多地方的网络提供商保持联系。


回想读过去年 BGP 路由泄露影了响谷歌服 务 的读者,或许还记得中国电信在这一幕的客串演出。中国电信与负责尼日利亚工厂路线泄漏的ISP(MainOne)保持联系。中国电信未能过滤通往谷歌的广告路由(而是将其传播给其他同行),导致一些用户试图访问谷歌的服务中断服务。



三、互联网处处充满不确定性


不论互联网在哪里,在管控松散的国家,还是管控严格的国家,基本上都是不可预测的。这是由于互联网被构建为自愿互联但分开管理的网络集合, 以及其基础技术(如BGP路由)的自动化天性和完全缺乏集中式管理。


如果互联网的一个地方出现故障,特别是在相关国家(比如中国),互联网其他部分会受到涟漪效应影响。在此次故障中, 超过一百多家商业国内公司业务受到影响,毋庸质疑会导致生产下降和收益减少。

当你发现互联网是多么不可预测的时候,你会发现当今商业对互联网有着惊人的依赖程度。互联网是完全不可控的。 那么问题来了—-如果你无法直接控制它,是否可以尽可能把它管理好呢?



四、关于这个猜测


由于千眼(ThousandEyes) 本质上是一个实时不停变化的互联网地图,我们可以追踪到互联网故障和故障对全球的影响,不管是发生在中国,俄罗斯或者其他地方, 但是我们不能也不会预测到类似网络事件背后的地缘政治和其他可能的动机(如果有的话)。


然而,值得注意的是中国的互联网提供商可以非常精确的对进出网络流量实施细颗粒度控制。从技术角度来看,并没有明显看出中国有意展示禁用美国应用服务的能力。毕竟,受影响的网站和服务是没有做区分的,中国境内和境外的站点服务都受到了影响。


原文链接:

https://blog.thousandeyes.com/internet-outage-reveals-reach-of-chinas-connect

中国电信 宕机 5 个小时:AWS、Azure、谷歌云、SAP、NTT、Akamai等受影响_java_05