Microsoft Azure DNS服务器中的代码缺陷导致全球愤怒
最近,Microsoft披露了由于代码缺陷而导致的全球范围内的断电,因此,Azure DNS服务变得不堪重负,并开始对DNS查询无响应。
在星期二下午大约5:21经历了全球性的愤怒。由于这个原因,许多用户在登录众多服务时发现了困难。这些服务包括:
- Xbox Live,
- 微软办公软件,
- SharePoint Online,
- Microsoft Intune,
- Dynamics 365,
- Microsoft团队,
- Skype,
- 在线交流,
- 一个驱动器,
- Yamer,
- Power BI,
- Power Apps,
- OneNote,
- Microsoft托管桌面,
- 和Microsoft Streams。
这些服务在Microsoft的基础架构中非常普遍。这就是为什么无法向用户提供负责证明停机信息的蔚蓝页面的原因。
如果我们谈论它的当前状态,则中断已得到解决。 Microsoft最终于美国东部标准时间下午6:30在同一天解决了该问题。但是,某些服务需要一些时间才能再次运行。
在询问有关中断的更多信息时,Microsoft仅表示这是由于DNS问题引起的。
但是,昨天该公司发布了RCA或根本原因分析。这解释了本周的中断是由于Azure DNS服务过载。
根据微软的说法,负责提供高可用性和快速DNS服务的Azure DNS,开始收到其在全球范围内收到的所有DNS查询的反常激增。
虽然尚不清楚异常激增是什么,但它可能是针对某些域的DDoS攻击。
微软表示,由于代码缺陷,通常处理大量请求的DNS服务无法正常工作。
“ Azure DNS服务器经历了来自全球的DNS查询异常激增,这些查询针对的是Azure托管的一组域。通常,Azure的缓存层和流量整形可以缓解这种激增。在此事件中,一个特定的事件序列暴露了代码DNS服务中的缺陷降低了我们DNS边缘缓存的效率。”
“由于我们的DNS服务变得超负荷,DNS客户端开始频繁重试其请求,这增加了DNS服务的工作量。由于客户端重试被视为合法的DNS流量,因此,这种流量不会被我们的容量峰值缓解系统丢弃。流量的增加导致降低我们的DNS服务的可用性。” Microsoft在已发布的RCA中解释道。
几乎所有的Microsoft域都是通过Azure DNS解析的。由于DNS服务过载,因此无法解析这些域上的主机名以及与服务相关联的访问。
例如,xboxlive.com使用以下Azure DNS名称服务器解析该域的主机名:
NS1-205.AZURE-DNS.COM
NS2-205.AZURE-DNS.NET
NS3-205.AZURE-DNS.ORG
NS4-205.AZURE-DNS.INFO
因此,当服务不可用时,用户将不再能够登录X-box Live。
Microsoft当前正在修复代码缺陷,以便DNS可以处理大量请求。