Amazon Web Services(AWS)は、現代のインターネットを支える基盤の1つだ。そんなAWSが米東部時間10月20日午前0時11分ごろに大規模な障害を起こし、世界中のウェブサイトやアプリ、オンラインサービスが次々と停止した。この障害は、AWSの中でも最も重要なデータセンターである米バージニア州北部の「US-East-1」リージョンで発生した。
障害の影響は広範囲に及び、サービスの遅延やタイムアウトが相次いだ。AWSは、「Amazon EC2」「AWS Lambda」「Amazon DynamoDB」などの主要サービスでエラー率の上昇とレスポンスの遅延を確認したと発表。技術者たちは後に、DynamoDBのAPIエンドポイントに関するDNS(ドメインネームシステム)の解決問題が原因であり、それが他の関連システムにも波及したことを突き止めた。
ネットワークの問題はいつもDNSが原因――という技術者の定番ジョークが、今回も現実となった。
障害が広がるにつれ、AWSのサービスヘルスダッシュボードには、28のサービスが影響を受けていることが記載され、クラウド全体での遅延やタイムアウトが確認された。
この影響は、「Snapchat」「Ring」「Alexa」「Roblox」「Hulu」といった主要な消費者向けプラットフォームだけでなく、「Coinbase」「Robinhood」「Perplexity」などの金融・AIサービスにも及んだ。Amazon.comやPrime Videoも一部で接続障害が発生した。
さらに、北米を超えて英国や欧州にも影響が広がり、Lloyds Banking Groupなどの大手銀行や一部の政府系サイトもダウンしたと報告されている。
DownForEveryoneOrJustForMeによると、Amazon関連だけで1万4千件以上の障害報告が寄せられた。「Ring」のドアベルや「Alexa」対応機器など、AWSに依存するスマートホーム機器も機能停止や接続不能となり、家庭や企業がAWSにどれほど依存しているかが浮き彫りになった。
Downdetectorのデータによれば、障害発生から最初の2時間で米国から100万件以上、英国からは40万件以上の報告があった。その後も世界全体で810万件を超える障害報告が寄せられ、米国からは190万件、英国からは100万件に達している。
AWSは、「ネットワークロードバランサーのヘルスチェックに対する対策を継続しており、大半のサービスの接続は回復しつつある」と説明。Lambdaでは、内部サブシステムがネットワークロードバランサーのヘルスチェックの影響を受けており、関数の呼び出しにエラーが発生しているという。現在はこの内部システムの復旧作業を進めているとのこと。また、EC2のインスタンス起動失敗については、修正を検証中であり、安全性が確認でき次第、最初のアベイラビリティーゾーン(AZ)に展開する予定だとしている。
当然ながら、SNS上ではユーザーの不満や臆測が飛び交い、障害の影響は小売り、ストリーミング、ゲーム、金融など多岐にわたる分野に広がった。インターネットが使えないと、私たちはこんなにも不機嫌になる――そんな事実があらためて浮き彫りになった。
AWSの技術者たちは、米東海岸リージョンで発生したネットワークゲートウェイのエラーを中心に調査を進め、「複数の経路で並行して復旧を加速させる作業を行っている」と説明していた。
Amazonは、米東部時間午前6時35分に障害が解消されたと発表したが、RingやChimeなど一部のサービスでは依然として復旧が遅れている。Downdetectorによると、1000以上の関連サービスで650万件以上の障害報告が寄せられた。影響を受けた企業は2000社以上に上り、約280社が障害の影響を受けていた。
Ooklaの業界アナリストであるLuke Kehoe氏は、数百のサービスで同時に障害が発生したことから、「個別のアプリの問題ではなく、クラウドの中核部分での障害だった」と指摘。今後の障害リスクを軽減するためには、複数のリージョンに業務を分散させることが重要だと述べた。
また、Downdetector by Ooklaの製品ディレクターであるDaniel Ramirez氏は、大規模な障害はまれではあるものの、企業が重要なデータや業務を単一のクラウドプロバイダーに集中させる傾向が強まる中で、発生頻度がやや増加している可能性があると語った。
「インターネットの基盤となるサービスが広範囲のオンラインサービスを停止させるような障害は、年間でも数回しか起きない。しかし、企業がクラウドサービスに全面的に依存し、特定のプラットフォームに最適化されたデータ構造を採用する傾向が強まる中で、こうした障害は少しずつ増えているように思える」とRamirez氏は述べている。
なお、US-East-1リージョンでDynamoDBのサービスエンドポイントの解決にまだ問題がある場合は、DNSキャッシュのクリアを推奨している。Amazonによれば、「DNSの根本的な問題はすでに解消されており、ほとんどのAWSサービスは通常通り動作している。ただし、完全復旧に向けて作業を進めている間、一部のリクエストが制限される可能性がある」とのことだ。
Amazonは今後、今回の障害の詳細な原因をまとめた報告書を公開する予定である。
提供:picture alliance / Contributor / Getty Images
※クリックすると拡大画像が見られます
この記事は海外Ziff Davis発の記事を4Xが日本向けに編集したものです。


