Microsoft AzureDNSサーバーのコードの欠陥が世界的な怒りを招く
最近、Microsoftは、コードの欠陥が原因で発生した世界規模の停止を明らかにしました。その結果、Azure DNSサービスが圧倒され、DNSクエリに応答しなくなりました。
世界的な怒りは火曜日の午後5時21分頃に経験されました。このため、多くのユーザーが多数のサービスへのサインインに問題を感じました。これらのサービスには次のものが含まれます。
- XboxLive、
- マイクロソフトオフィス、
- SharePointOnline、
- MicrosoftIntune、
- Dynamics365、
- MicrosoftTeams、
- Skype、
- ExchangeOnline、
- OneDrive、
- Yamer、
- PowerBI、
- パワーアプリ、
- OneNote、
- Microsoftマネージドデスクトップ、
- そしてMicrosoftStreams。
これらのサービスは、Microsoftのインフラストラクチャ内で非常に普及しています。これが、ユーザーに停止情報を提供する紺碧のページにアクセスできなくなった理由です。
現在の状況について言えば、停止は解決されています。マイクロソフトは最終的に、同じ日の午後6時30分(東部標準時)頃に問題を解決しました。ただし、一部のサービスが再び機能するまでには少し時間がかかります。
Microsoftは、停止に関する詳細情報を求めたところ、DNSの問題が原因であるとだけ述べました。
ただし、昨日、同社はRCAまたは根本原因分析として公開しました。これは、1週間の停止は、AzureDNSサービスが過負荷になったことが原因であることを説明しています。
Microsoftによると、高可用性と高速DNSサービスの提供を担当するAzure DNSは、世界中で受信したDNSクエリの異常な急増を受信し始めました。
異常なサージが何であるかは明らかではありませんが、特定のドメインを標的としたDDoS攻撃である可能性があります。
これはコードの欠陥が原因で、通常は多数のリクエストを処理するDNSサービスが適切に機能しないとMicrosoftは述べています。
「AzureDNSサーバーでは、Azureでホストされている一連のドメインを対象とした、世界中からのDNSクエリの異常な急増が発生しました。通常、Azureのキャッシュレイヤーとトラフィックシェーピングによってこの急増が緩和されます。このインシデントでは、特定の一連のイベントによってコードが公開されましたDNSエッジキャッシュの効率を低下させたDNSサービスの欠陥。」
「DNSサービスが過負荷になると、DNSクライアントはリクエストの再試行を頻繁に開始し、DNSサービスにワークロードを追加しました。クライアントの再試行は正当なDNSトラフィックと見なされるため、このトラフィックはボリュームスパイク軽減システムによってドロップされませんでした。このトラフィックの増加により、 DNSサービスの可用性を低下させるためです」とMicrosoftは公開されたRCAで説明しています。
ほとんどすべてのMicrosoftドメインは、AzureDNSを介して解決されます。 DNSサービスが過負荷になったため、これらのドメインのホスト名とサービスに関連付けられたアクセスを解決できませんでした。
たとえば、xboxlive.comは、次のAzureDNSネームサーバーを使用してこのドメインのホスト名を解決します。
NS1-205.AZURE-DNS.COM
NS2-205.AZURE-DNS.NET
NS3-205.AZURE-DNS.ORG
NS4-205.AZURE-DNS.INFO
そのため、サービスが利用できない場合、ユーザーはX-boxLiveにログインできなくなりました。
マイクロソフトは現在、DNSが大量の要求を処理できるように、コードの欠陥を修復しています。