今天三小时停机的技术术语是TITSUP:完全无法支持用户的数据包(Total Inability To Support Users' Packets)


至少在过去一两个小时内,由于DNS配置事故,微软的Azure云在全球范围内震荡不定。


平台范围的中断已经破坏了世界各地的各种Redmond托管系统,从Azure SQL数据库和应用服务到多因素身份验证,Microsoft 365和团队,Dynamics,SharePoint Online和OneDrive。


在我们打字的时候,这个云巨人正逐渐重新站起来,Azure地区一个接一个地恢复,尽管你的感觉可能会有所不同,但似乎麻烦始于1945年左右(译者注:意思为二战之后最严重的的灾难)。


“客户可能会遇到与Azure和其他Microsoft服务(包括M365,Dynamics,DevOps等)的间歇性连接问题,”Azure公告页面现在能看到的是2128 UTC。


“工程师正在研究影响网络连接的DNS解决问题。连接问题导致对下游计算,存储和数据库服务的影响,并且一些客户可能无法提交支持请求。


“随着时间的推移,将提供更多信息。一些客户可能会开始看到恢复情况。”


换句话说,尚未给出全部清晰,并且正如他们所说,任何事情都可能在接下来的半小时内发生。


Azure 全球宕机 3 个小时!_java


在Microsoft 365公告页面上,Redmond的技术人员指责内部DNS配置错误导致停机:


用户可能无法访问Microsoft 365服务或功能。 


更多信息:受影响的服务包括SharePoint Online,OneDrive for Business,Microsoft Teams,Stream,Power BI,Planner,Forms,PowerApps,Dynamics 365,Intune和Office Licensing。 


我们已经识别并纠正了阻止用户访问Microsoft 365服务和功能的DNS配置问题。 我们观察到成功连接的增加,我们的遥测表明所有服务正在恢复。 我们将继续监控环境以验证服务是否已恢复。


Azure 全球宕机 3 个小时!_java_02


我们已经识别并纠正了阻止用户访问Microsoft 365服务的DNS配置问题。 有关详细信息,请参阅SP178746,OD178975和MO178979下的管理中心。


--Microsoft 365公告(@ MSFT365Status)2019年5月2日


这不是第一次DNS问题让人感到烦恼,最后一次发生这种情况,根据我们的估计,一些客户的数据库丢失了,所以祈祷吧,伙计们。 


最新信息,公告2300 UTC

微软表示它已修复其破损的系统,结束了今天的三小时停机,Azure的网络基础设施应该或多或少地恢复正常:“已经应用了缓解措施,大多数服务已经恢复,除了一小部分服务可能仍会有一些影响。“


技术巨头补充说,其DNS系统的错误迁移最终归咎于:“工程师发现潜在的根本原因是名称服务器委托更改影响DNS解析并导致对下游计算,存储,应用服务,AAD和SQL数据库的影响服务。


“在将旧版DNS系统迁移到Azure DNS期间,Microsoft服务的某些域未正确更新。在此事件期间没有客户DNS记录受到影响,并且整个事件期间Azure DNS的可用性保持在100%。此问题仅受影响Microsoft服务的记录。


“为了缓解,工程师纠正了名称服务器委派问题。访问错误配置的域的应用程序和服务可能缓存了不正确的信息,导致恢复时间更长,直到缓存的信息过期。”


原来链接:

https://www.theregister.co.uk/2019/05/02/microsoft_azure_outage_dns/


Azure 全球宕机 3 个小时!_java_03