日本航空(JAL)で2023年3月9日に発生したシステム障害の原因が判明した。大規模セールに伴いWebサイトへのアクセスが事前想定の2.5倍に達し、負荷分散装置(ロードバランサー)が処理性能の限界を超えて停止。予約系基幹システムに連なるオンプレミス(自社保有)のサーバーも過負荷に耐えられなかった。一連のトラブルでは、アクセス集中を見越したWebサイトの設計や大規模セールに向けた部門連携といった点にも課題があることが明らかになった。
同社は「JALスマイルキャンペーン」と題したセールの一環で、3月9日午前0時から国内線全路線を6600円で販売するセールを予定していた。セール開始直前の3月8日午後11時50分ごろから、同社Webサイトがアクセス集中によりつながりにくくなり、同時にセール以外の航空券の予約・発券なども手続きしづらくなった。この状態が9日昼すぎまで解消せず、JALは同日午後2時にセールの中止を発表するに至った。アクセスしにくい状態は同日午後6時半すぎにようやく解消した。
関連記事 JALのWebサイトで4月中旬以降の予約など不能に、大規模セールが影響か JALが国内線セール中止、アクセス集中が半日以上続き解消のめど立たずJALの赤坂祐二社長は2023年3月23日に開催した定例会見で、今回のセールに伴い空席照会などのアクセスが毎時100万人程度の規模だったと明らかにした。「通常、当社の予約発券システムは毎時3万人くらいがアクセスする。過去に実施したタイムセールでは毎時20万人程度まで増加しており、今回は40万人程度のアクセスにも耐えられるよう(ハードウエア増強などの)対応をしていた」(赤坂社長)。実際にはその想定に対し2.5倍ほどのアクセスが押し寄せたわけだ。
その結果、まずオンプレミスのロードバランサーが機能しなくなった。ただこれについては、同社が契約するCDN(コンテンツ・デリバリー・ネットワーク)で流入を制御することで復旧させた。だが、ロードバランサーの先にある「予約発券ゲートウエイ」と呼ぶオンプレミスのサーバーがアクセス殺到に耐えられなかった。
予約発券ゲートウエイは、スペインのAmadeus IT Group(アマデウスITグループ)がクラウドサービスとして提供する旅客系基幹システム「Altea」に連なるフロントエンドとしての役割がある。今回のセールでは予約発券ゲートウエイが処理性能を超えるアクセスによってレスポンスが悪化し、個々のユーザーから届く空席照会の多くがタイムアウトとなった。