Microsoft AzureDNSサーバーのコードの欠陥が世界的な怒りを招く

最近、Microsoftは、コードの欠陥が原因で発生した世界規模の停止を明らかにしました。その結果、Azure DNSサービスが圧倒され、DNSクエリに応答しなくなりました。

世界的な怒りは火曜日の午後5時21分頃に経験されました。このため、多くのユーザーが多数のサービスへのサインインに問題を感じました。これらのサービスには次のものが含まれます。

  • XboxLive、
  • マイクロソフトオフィス、
  • SharePointOnline、
  • MicrosoftIntune、
  • Dynamics365、
  • MicrosoftTeams、
  • Skype、
  • ExchangeOnline、
  • OneDrive、
  • Yamer、
  • PowerBI、
  • パワーアプリ、
  • OneNote、
  • Microsoftマネージドデスクトップ、
  • そしてMicrosoftStreams。

これらのサービスは、Microsoftのインフラストラクチャ内で非常に普及しています。これが、ユーザーに停止情報を提供する紺碧のページにアクセスできなくなった理由です。

現在の状況について言えば、停止は解決されています。マイクロソフトは最終的に、同じ日の午後6時30分(東部標準時)頃に問題を解決しました。ただし、一部のサービスが再び機能するまでには少し時間がかかります。

Microsoftは、停止に関する詳細情報を求めたところ、DNSの問題が原因であるとだけ述べました。

ただし、昨日、同社はRCAまたは根本原因分析として公開しました。これは、1週間の停止は、AzureDNSサービスが過負荷になったことが原因であることを説明しています。

Microsoftによると、高可用性と高速DNSサービスの提供を担当するAzure DNSは、世界中で受信したDNSクエリの異常な急増を受信し始めました。

異常なサージが何であるかは明らかではありませんが、特定のドメインを標的としたDDoS攻撃である可能性があります。

 これはコードの欠陥が原因で、通常は多数のリクエストを処理するDNSサービスが適切に機能しないとMicrosoftは述べています。

「AzureDNSサーバーでは、Azureでホストされている一連のドメインを対象とした、世界中からのDNSクエリの異常な急増が発生しました。通常、Azureのキャッシュレイヤーとトラフィックシェーピングによってこの急増が緩和されます。このインシデントでは、特定の一連のイベントによってコードが公開されましたDNSエッジキャッシュの効率を低下させたDNSサービスの欠陥。」

「DNSサービスが過負荷になると、DNSクライアントはリクエストの再試行を頻繁に開始し、DNSサービスにワークロードを追加しました。クライアントの再試行は正当なDNSトラフィックと見なされるため、このトラフィックはボリュームスパイク軽減システムによってドロップされませんでした。このトラフィックの増加により、 DNSサービスの可用性を低下させるためです」とMicrosoftは公開されたRCAで説明しています。

ほとんどすべてのMicrosoftドメインは、AzureDNSを介して解決されます。 DNSサービスが過負荷になったため、これらのドメインのホスト名とサービスに関連付けられたアクセスを解決できませんでした。

たとえば、xboxlive.comは、次のAzureDNSネームサーバーを使用してこのドメインのホスト名を解決します。

NS1-205.AZURE-DNS.COM

NS2-205.AZURE-DNS.NET

NS3-205.AZURE-DNS.ORG

NS4-205.AZURE-DNS.INFO

そのため、サービスが利用できない場合、ユーザーはX-boxLiveにログインできなくなりました。

マイクロソフトは現在、DNSが大量の要求を処理できるように、コードの欠陥を修復しています。