Microsoft Azure DNS服务器中的代码缺陷导致全球愤怒

最近,Microsoft披露了由于代码缺陷而导致的全球范围内的断电,因此,Azure DNS服务变得不堪重负,并开始对DNS查询无响应。

在星期二下午大约5:21经历了全球性的愤怒。由于这个原因,许多用户在登录众多服务时发现了困难。这些服务包括:

  • Xbox Live,
  • 微软办公软件,
  • SharePoint Online,
  • Microsoft Intune,
  • Dynamics 365,
  • Microsoft团队,
  • Skype,
  • 在线交流,
  • 一个驱动器,
  • Yamer,
  • Power BI,
  • Power Apps,
  • OneNote,
  • Microsoft托管桌面,
  • 和Microsoft Streams。

这些服务在Microsoft的基础架构中非常普遍。这就是为什么无法向用户提供负责证明停机信息的蔚蓝页面的原因。

如果我们谈论它的当前状态,则中断已得到解决。 Microsoft最终于美国东部标准时间下午6:30在同一天解决了该问题。但是,某些服务需要一些时间才能再次运行。

在询问有关中断的更多信息时,Microsoft仅表示这是由于DNS问题引起的。

但是,昨天该公司发布了RCA或根本原因分析。这解释了本周的中断是由于Azure DNS服务过载。

根据微软的说法,负责提供高可用性和快速DNS服务的Azure DNS,开始收到其在全球范围内收到的所有DNS查询的反常激增。

虽然尚不清楚异常激增是什么,但它可能是针对某些域的DDoS攻击。

 微软表示,由于代码缺陷,通常处理大量请求的DNS服务无法正常工作。

“ Azure DNS服务器经历了来自全球的DNS查询异常激增,这些查询针对的是Azure托管的一组域。通常,Azure的缓存层和流量整形可以缓解这种激增。在此事件中,一个特定的事件序列暴露了代码DNS服务中的缺陷降低了我们DNS边缘缓存的效率。”

“由于我们的DNS服务变得超负荷,DNS客户端开始频繁重试其请求,这增加了DNS服务的工作量。由于客户端重试被视为合法的DNS流量,因此,这种流量不会被我们的容量峰值缓解系统丢弃。流量的增加导致降低我们的DNS服务的可用性。” Microsoft在已发布的RCA中解释道。

几乎所有的Microsoft域都是通过Azure DNS解析的。由于DNS服务过载,因此无法解析这些域上的主机名以及与服务相关联的访问。

例如,xboxlive.com使用以下Azure DNS名称服务器解析该域的主机名:

NS1-205.AZURE-DNS.COM

NS2-205.AZURE-DNS.NET

NS3-205.AZURE-DNS.ORG

NS4-205.AZURE-DNS.INFO

因此,当服务不可用时,用户将不再能够登录X-box Live。

Microsoft当前正在修复代码缺陷,以便DNS可以处理大量请求。