前回に続き、 システムダウン事例の分析を紹介する。
トラブルによってシステムがダウンしている時間を年代別に分析すると、ダウン時間が長時間化していることが分かった。1990年代以降でダウン時間が判明している事例317件を年代別に比較すると、1990年代は完全復旧までのダウン時間が平均1日程度だったのが、2000年代になると5日、2010年代になると6日程度まで増加している。
復旧にかかる時間が長期化する原因として、前回挙げたシステムの複雑化が当てはまる。システムが複雑なため、企業のIT部門やベンダー企業のSEだけでは対応できず、原因究明や復旧作業に手こずり、ダウンの長期化を招いた事例が複数あった。
企業のWebサイトやサーバーを狙ったセキュリティ関連の不具合も、システムダウンを長期化させる一因だ。元のシステムに深刻な脆弱性がある場合、原因を解明して十分なセキュリティ対策を取るまではサービスを再開できず、システム停止が長期化しやすい。
クラウドに影響するトラブルも
クラウドサービスを活用する企業が増えているのに伴い、2010年代にはクラウドの運用に伴うトラブルも目に付き始めた。アクセスの集中による容量不足や運用作業の誤り、プログラムのバグ、クラウドのインフラを支えるルーターなど周辺機器の故障といった様々なトラブルがあった。
クラウドの場合、仮想化技術を提供するベンダー、監視サービスを提供するベンダーなど複数のベンダーが運用に関与する傾向があり、トラブル発生時に迅速な対応が取りにくくなる問題もある。実際にサービス事業者とシステム構築ベンダー、ユーザー企業の間で障害対応の体制を明確にできておらず、トラブルを深刻化させた事例もあった。