Defeito de código em servidores DNS do Microsoft Azure leva à indignação global

Recentemente, a Microsoft revelou uma interrupção mundial causada devido a um defeito no código como resultado do qual o serviço DNS do Azure ficou sobrecarregado e começou a não responder às consultas DNS.

A indignação global ocorreu na terça-feira à tarde, aproximadamente às 5h21. Devido a isso, muitos usuários encontraram dificuldades para entrar em vários serviços. Esses serviços incluem:

  • Xbox Live,
  • Microsoft Office,
  • SharePoint Online,
  • Microsoft Intune,
  • Dynamics 365,
  • Microsoft Teams,
  • Skype,
  • Exchange Online,
  • OneDrive,
  • Yamer,
  • Power BI,
  • Aplicativos poderosos,
  • Uma nota,
  • Desktop Gerenciado Microsoft,
  • E Microsoft Streams.

Esses serviços são amplamente difundidos na infraestrutura da Microsoft. É por isso que a página azul responsável por fornecer informações sobre interrupções aos usuários tornou-se inacessível.

Se falarmos sobre seu status atual, a interrupção foi resolvida. A Microsoft acabou resolvendo o problema no mesmo dia, aproximadamente às 18h30 EST. No entanto, alguns dos serviços demoram um pouco para funcionar novamente.

Ao pedir mais informações sobre a interrupção, a Microsoft disse apenas que ela foi causada por um problema de DNS.

Ontem, porém, a empresa publicou como RCA ou análise de causa raiz. Isso explica que a interrupção da semana é porque os serviços DNS do Azure ficaram sobrecarregados.

De acordo com a Microsoft, o DNS do Azure, que é responsável por fornecer alta disponibilidade e serviços de DNS rápidos, começou a receber um aumento anômalo de todas as consultas de DNS que recebia em todo o mundo.

Embora não esteja claro qual é o pico anômalo, pode ser um ataque DDoS visando certos domínios.

 É por causa de um defeito de código que o serviço DNS que normalmente lida com um grande número de solicitações não funcionaria corretamente, disse a Microsoft.

“Os servidores DNS do Azure experimentaram um aumento anômalo nas consultas DNS de todo o mundo visando um conjunto de domínios hospedados no Azure. Normalmente, as camadas de caches e modelagem de tráfego do Azure atenuariam esse aumento. Neste incidente, uma sequência específica de eventos expôs um código defeito em nosso serviço DNS que reduziu a eficiência de nossos caches DNS Edge. “

“À medida que nosso serviço DNS ficou sobrecarregado, os clientes DNS começaram a repetir as solicitações frequentes, o que acrescentou carga de trabalho ao serviço DNS. Como as novas tentativas do cliente são consideradas tráfego DNS legítimo, esse tráfego não foi eliminado por nossos sistemas de mitigação de pico volumétrico. Esse aumento no tráfego levou à diminuição da disponibilidade de nosso serviço DNS “, explicado pela Microsoft no RCA publicado.

Quase todos os domínios da Microsoft são resolvidos por meio do DNS do Azure. Como o serviço DNS ficou sobrecarregado, não foi possível resolver os nomes de host nesses domínios e o acesso associado aos serviços.

Por exemplo, xboxlive.com usa os seguintes servidores de nome DNS do Azure para resolver os nomes de host deste domínio:

NS1-205.AZURE-DNS.COM

NS2-205.AZURE-DNS.NET

NS3-205.AZURE-DNS.ORG

NS4-205.AZURE-DNS.INFO

Assim, quando o serviço não estava disponível, os usuários não conseguiam mais fazer o login no X-box Live.

A Microsoft está atualmente consertando o defeito do código para que o DNS possa lidar com uma grande quantidade de solicitações.