サーバーやネットワークの冗長化は情報システムの信頼性を高めるための常套手段である。しかし、冗長構成を組んだからといって安心はできない。障害発生時、本番系から待機系への切り替えがうまくいかないケースが後を絶たないからだ。なぜフェイルオーバーに失敗するのか。有効な自衛手段はあるのか。事例を基にひも解いていく。
2012年、東京証券取引所は取引停止につながる大規模なシステム障害を二度引き起こし、金融庁から業務改善命令を受けた。東証の取引システムのようなミッションクリティカルな情報システムは、サーバーやネットワークなどを冗長化している。二度の障害はいずれもハードウエア故障が発端。本来、何事もなく本番系から待機系に自動的に切り替わり、サービスを継続できるはずだった。ところが、二度とも本番系からの切り替えに失敗した。
本番系の故障を検知し、自動で待機系へと処理を引き継ぐ「自動フェイルオーバー」の失敗は決して珍しくない。現にフェイルオーバー失敗に起因するシステム障害は後を絶たない(表)。日本ヒューレット・パッカード(HP) ストレージソリューション部の挾間崇部長も「100%切り替えに成功できると断言できるベンダーはないはずだ」と証言する。ハードやソフトの高機能化で処理が複雑になり、障害箇所が拡大するケースもある。事例を踏まえて要因と対策を探っていこう。