米Googleは米国時間2009年9月1日,Webメール・サービス「Gmail」で起きた障害の原因について,同サービスのトラフィック量が転送用ルーターの最大処理容量を上回ったためだったと発表した。同社は暫定的な対策として,ルーターの設定を変えて転送可能なトラフィック量を増やした(関連記事:「Gmail」で大規模な障害が発生,大多数のユーザーが一時アクセス不能に)。
GoogleはGmail用サーバーを定期的にアップグレードしており,9月1日朝(PST:米太平洋沿岸標準時)も一部サーバーをオフラインにしてアップグレード作業を行っていた。オフラインになったサーバーの処理すべきトラフィックはルーターが別のサーバーに転送するため,通常アップグレード中もGmailのサービスは停止しない。ところが,最近サービス可用性を高める方策の一環としてルーターの最大処理容量を下げていたため,午後12時30分ごろ数台のルーターが負荷過剰な状態に陥ってしまった。これらのルーターがGmailシステムにトラフィック送信を止めるよう指示した影響で,余分のトラフィックを受けることになったほかのルーターまで負荷過剰となり,数分でほとんどすべてのルーターがトラフィック転送をやめたという。この結果,ユーザーはGmailのサーバーにアクセスできなくなった。
Gmailの技術チームは障害発生から数秒で問題に気付き,その後の調査で障害の原因がルーターの最大処理容量にあると突き止めて対策をとった。IMAP/POP経由のアクセスとメール自体の処理は,別系統のルーターを使っていたため障害発生中も正常に作動していた。
今回の障害により,ユーザーの大半がGmailに約100分間アクセスできなくなった。同社は「重大な問題」と受け止め,ルーターの処理容量を増やしたほか,各ルーターの障害が全体に波及しないようにする根本的な対策を検討する。なお,同社はGmailを含む有償オンライン・アプリケーション・サービス「Google Apps Premier Edition」において,99.9%の可用性を保証するサービス品質保証契約(SLA)を適用している(関連記事:Google,オンライン・アプリ「Google Apps Premier」で可用性99.9%を保証)。