総務省の有識者会議「電気通信事故検証会議」は2022年10月5日、KDDIが7月に起こした大規模通信障害に関する検証報告書を公表した。KDDI自身がこれまで4度にわたって記者会見を開いて説明しているので全体像は把握していたが、さらに深掘りした興味深い内容となっている。
例えば障害の影響が全国に波及した点。同業他社からは「KDDIはなぜ影響を局所化できなかったのだろうか」と疑問の声が上がっていた。原因は、同社が音声通話用の「VoLTE(Voice over LTE)交換機」のネットワークをフルメッシュ構成にしていたためだった。東西でネットワークを分けるのが一般的な印象だが、同社は「特定の拠点で発生する輻輳(ふくそう)を早期に収束させるため」に全国フルメッシュ構成を採用していた。これが裏目に出た。今後は東西分散構成に変更するという。
検証報告書を読むと、厄介な出来事が次々と発生して事態が悪化していった様子がよく分かる。結果だけを振り返れば長引くのも当然と感じたが、原因が分からず手探りで対応に当たっていた現場はまさに地獄絵図の状況だったと推察される。携帯電話業界の関係者でなくても多くの気づきを得られると思われ、ぜひ一読をお勧めしたい。以下では、筆者が検証報告書で注目したポイントを紹介する。
機器の再起動で思わぬ落とし穴
まず驚いたのは、障害のきっかけとなったメンテナンス作業における設定ミスの内容である。モバイルコア網と全国中継網をつなぐコアルーターはAとBの2系統あり、Bのソフトウエアをバージョンアップするため、いったん予備のコアルーターに経路を切り替えた。バージョンアップ作業の終了後に経路を戻した際、モバイルコア網にあるVoLTE交換機の設定変更が漏れていた。
この結果、予備のコアルーターにルーティングする設定が残り、「2分の1の確率で(通信が)失敗する状態が生じたと推定される」(検証報告書)。逆に2分の1の確率では成功するため異常と認識せず、同社が用意していた輻輳制御機能もうまく働かなかった。
KDDIは設定変更が漏れた原因について「古い手順書を使ってしまったため」としている。古い手順書にはVoLTE交換機のルーティング変更が指示されていなかったとするが、切り戻しの作業と分かっていればおかしいことに気づいてしかるべきである。作業者・作業管理者・作業承認者がそろってスルーしてしまったのは痛恨のミスだった。