April 24, 2009
このblogを始めた時には当然Doblogで書いてる人のblogも見てたけど、いつからかなぁ。ほとんど見なくなったのは。
こんなカタチで、有名blogサービスが一つ消滅してしまうとわ。。。
Doblogのサービス終了のお知らせ | お知らせ | NTTデータ
【故障内容の詳細】 故障内容 (1)データベースサーバーのRAID5構成のハードディスク2本が同時に破損 1本の破損であれば残りの5本から情報を再構成できますが、破損が2本に及んだためデータを読み取ることが出来なくなりました。 (2)更にバックアップ用のサーバでも障害が発生 これによりバックアップのデータにも異常が生じたため、皆様の記事情報を復旧することが困難な状態となりました。
だからRAID5は信用できないと(w
RAID5は、システムの信頼性を上げる技術じゃなくて、「容量を増やす技術」だ。かつスピードを早くするための技術でもあるのかな。
勘違いしてるケースは多いと思うがシステムの信頼性は、RAID1(ミラーリング)の方が上だ。
RAID5では1台のHDDが壊れた後の再構築中に2台目が壊れることが無視できないという話がRAID6のメリットを主張する話に書いてある。同一環境、同一のデータを読み書きし続けてきた同一ロットのHDDであれば寿命も似たりよったりというのが一つの根拠。また、リビルド時の負荷で最後の引導を渡すというのもあるだろう(これはRAID1も同じ)
HDDが6台でRAID5を構成していたようだが、つまり1台目のHDDが壊れたときに続いて2台目のHDDが壊れる可能性は、ミラーリング構成の実に「5倍」ということになる。
RAID5は、6台だろうが10台HDDがあっても、そのうち2台がハズレクジを引いたら全部がオジャンという非常にリスキーな仕組みだ。
故にDBのレプリケーション(リアルタイムコピーみたいなもん)などをしてないと、バックアップが1日1回動いてたって、いつ1日分のデータが消滅するかわからないわけだが、DBがシングル構成だったわけですね。
せめてMySQLあたりと低コストサーバでレプリケーションしてあげてれば。。。
(レプリケーションは、間違って消しただの全件updateしたなどのセキュリティ不具合&人為的ミスに対処できないので物理バックアップと併用するのが正解)
あとバックアップ用サーバーってさ。つたない経験なんですが、バックアップが動いてないとかってあるわけよ。で、それが発覚するのがバックアップしてるハズのデータが必要になった時、みたいな(爆)
異常系のテストをちゃんとしてんのかよー!とか、容量が日々増えていくのでバックアップを維持運用するのも結構大変だよね、とか。今回のケースがそうだとは当然言いません。
あと、差分を取っていく世代バックアップでありがちなのが、「壊れたデータをバックアップしちゃって全部消えました」とか。更に容量の問題から、1世代までしか記録してなくて、全部消えました、とか。それまでに運用で気がつくハズという慢心がもたらす二次的被害があったり、こういう状況ではバックアップしない、というインターロックがそもそもなかったり。
バックアップはフロントシステムほど監視をしてないし、一度稼働し始めるとおざなりになりがちなので結構怖い。
なんとなくシステムの状況から邪推すると、サービスの辞め時を誤ったってのはあるんだろうなぁ。
既に先頭で旗振ってた人たちがいなくなったり、エライ人の一言で始まったサービスだったりして、誰も責任取れずに終わり時もない、みたいな。終わるは終わるためのパワーが必要ですしね。
復旧に携わったエンジニアの方々お疲れ様でした。
是非、最後まで面倒をよろしくお願いします。