El defecto de código en los servidores DNS de Microsoft Azure genera indignación mundial
Recientemente, Microsoft ha revelado una interrupción mundial causada por un defecto de código como resultado del cual el servicio DNS de Azure se abruma y comienza a no responder a las consultas de DNS.
La indignación mundial se experimentó el martes por la tarde aproximadamente a las 5:21. Debido a esto, muchos usuarios encontraron dificultades para iniciar sesión en numerosos servicios. Estos servicios incluyen:
- Xbox Live,
- Microsoft Office,
- SharePoint en línea,
- Microsoft Intune,
- Dynamics 365,
- Microsoft Teams,
- Skype,
- Exchange Online,
- OneDrive,
- Yamer,
- Power BI,
- Power Apps,
- Una nota,
- Escritorio administrado de Microsoft,
- Y Microsoft Streams.
Estos servicios están muy extendidos dentro de la infraestructura de Microsoft. Es por eso que la página azul responsable de proporcionar información sobre interrupciones a los usuarios se volvió inaccesible.
Si hablamos de su estado actual, la interrupción se ha resuelto. Microsoft finalmente resolvió el problema el mismo día aproximadamente a las 6:30 p.m. EST. Sin embargo, algunos de los servicios tardan un poco en volver a funcionar.
Al solicitar más información sobre la interrupción, Microsoft solo dijo que se debió a un problema de DNS.
Ayer, sin embargo, la empresa publicó como RCA o análisis de causa raíz. Esto explica que la interrupción de la semana se debe a que los servicios DNS de Azure se sobrecargaron.
Según Microsoft, Azure DNS, que es responsable de proporcionar servicios de DNS rápidos y de alta disponibilidad, comenzó a recibir un aumento anómalo de las consultas de DNS que recibió en todo el mundo.
Si bien no está claro cuál es el aumento anómalo, puede ser un ataque DDoS dirigido a ciertos dominios.
Es debido a un defecto de código, el servicio DNS que normalmente maneja una gran cantidad de solicitudes no funcionaría correctamente, dijo Microsoft.
“Los servidores DNS de Azure experimentaron un aumento anómalo en las consultas de DNS de todo el mundo dirigidas a un conjunto de dominios alojados en Azure. Normalmente, las capas de cachés y la configuración del tráfico de Azure mitigarían este aumento. En este incidente, una secuencia específica de eventos expuso un código defecto en nuestro servicio DNS que redujo la eficiencia de nuestras cachés DNS Edge “.
“A medida que nuestro servicio de DNS se sobrecargó, los clientes de DNS comenzaron a reintentar con frecuencia sus solicitudes, lo que agregó carga de trabajo al servicio de DNS. Dado que los reintentos de los clientes se consideran tráfico de DNS legítimo, nuestros sistemas de mitigación de picos volumétricos no disminuyeron este tráfico. Este aumento en el tráfico generó a la disminución de la disponibilidad de nuestro servicio DNS “, explica Microsoft en el RCA publicado.
Casi todos los dominios de Microsoft se resuelven a través de Azure DNS. Dado que el servicio DNS se sobrecargó, no fue posible resolver los nombres de host en estos dominios y el acceso asociado a los servicios.
Como por ejemplo, xboxlive.com usa los siguientes servidores de nombres DNS de Azure para resolver los nombres de host de este dominio:
NS1-205.AZURE-DNS.COM
NS2-205.AZURE-DNS.NET
NS3-205.AZURE-DNS.ORG
NS4-205.AZURE-DNS.INFO
Entonces, cuando el servicio no estaba disponible, los usuarios ya no podían iniciar sesión en X-box Live.
Microsoft está reparando actualmente el defecto del código para que el DNS pueda manejar una gran cantidad de solicitudes.