KDDI、LTE障害の原因判明 ソフトと機器が同時故障
KDDI(au)の高速通信サービスである「au 4G LTE」の回線が5月29日と30日に相次いでつながりにくくなる通信障害が起きたのは、ネットワークの改修作業中に通信機器の故障とソフトウエアの不具合(バグ)が同時に起きたことが原因であることが分かった。同社では4月にも大規模な通信障害が発生しており、その教訓を生かし切れなかった格好だ。
ハードの故障とソフトのバグが相次ぎ発生
今回の障害では、東京・神奈川・山梨の1都2県で、29日は最大56万回線が18時間弱、30日は最大64万回線が11時間弱にわたってLTE回線に接続しづらくなっていた。低速の3G回線には障害が起こっていないものの、LTE回線の障害に伴い利用が集中し、3G回線もつながりにくい状況となっていた。
KDDIによると、2件の障害はいずれも東京都多摩市の同社ネットワークセンターに設置してある「基地局制御装置」の不具合が原因。基地局制御装置は、各地の基地局に割り当てる電波のチャンネルなどを集中管理する装置である。
同社では、4月27日にも1都2県で約6時間にわたりLTEがつながりにくくなる障害があり、原因が基地局制御装置のソフトウエアのバグであることが判明している。このため5月29日未明、不具合を取り除くためのソフトウエア更新作業を行っていた。更新作業は、障害発生に備えて2重化してある基地局制御装置のうち一方を実運用から切り離して行っていた。
ところがこの際、1系統だけで本番運用していた方の基地局制御装置でネットワークカードの故障が発生。これを受けてソフトウエア更新作業を中止し、もう1系統を本番運用に戻したところ、今度はこの系統で、修正しようとしていたソフトウエアのバグが発生した。その結果、2系統とも運用できなくなり、半日以上LTE回線がつながりにくい状態となってしまった。
29日の障害は同日深夜に復旧したものの、翌30日の午後に障害が再発。この原因は特定できていないものの、「原因となったのは29日の障害と同じ基地局制御装置」(KDDI)としており、同社で関連を調べている。
4月のメール障害と原因・経過が類似
同社では4月16日、アップルのスマートフォン(スマホ)「iPhone(アイフォーン)」で電子メールのリアルタイム受信ができなくなる障害が発生。復旧が19日までずれこみ、最大288万人に影響を及ぼす事態を引き起こしていた。この際も、メールシステムの更新に向け2重化していたシステムの一方を切り離した際、もう一方のシステムに障害が発生したことが一因だった。前回の電子メールシステムと今回の基地局制御装置では機器が異なるものの、障害の原因や経過には類似性がある。
KDDIはその後、システムを更新する際に作業手順書の確認や模擬システムでの予行演習などを徹底するとしていたが、こうした手順の見直しだけでは防ぎきれなかった。電子メールシステムについては、2系統で同時に障害が起きても迅速に復旧できるよう、手順の見直しによる復旧時間の短縮やシステムを増強するとしていたが、今回の基地局制御装置は対象となっておらず、結果として前回の大規模障害の教訓を生かし切れなかった。
(電子報道部 金子寛人)
関連企業・業界