コンピュータを使って久しいなら,5.25インチ・フロッピ・ディスク(FD)を覚えているだろう。5.25インチFDは容量も少なく,動きも遅く,信頼性も低くかったが,当時はハードディスクよりもずいぶん安かったので,筆者は5.25インチFDを使わざるを得なかった。ハードディスクが安価になることで「信頼性の高い」ハードディスクに移行できたわけだが,本当にハードディスクの信頼性は5.25インチFDより高いのだろうか?
米カーネギーメロン大学のBianca Schroeder氏とGarth A. Gibson氏が2007年初めに発表したレポート「Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?(ディスク故障の現実:100万時間のMTTFの意味)」で,Schroeder氏とGarth氏は,異なるベンダー製の10万個以上のSCSI,ファイバチャンネル,Serial ATA(SATA)ドライブを調査した結果を発表した。このデータを分析し,彼らは次の3つの質問に対する答えを示した。
・ハードディスク・ドライブは,他のハードウエアより頻繁に取り替える必要があるか。
・ハードドライブ・ベンダーが出す信頼性の測定結果はどれほど正確か。
・ハードドライブ故障の統計性において,主要な仮定はどの程度本当か。
調査対象となったのは,ハイ・パフォーマンス・コンピューティング(HPC)クラスタを運用する組織から集められた7種類のデータや,ベンダーが保有する品質保証データ,インターネット・サービス・プロバイダ(ISP)から寄せられた実証的な故障データなどである。調査結果は,驚くべきものである。
HDDの故障率は「メモリーと同じく高い」
最初の質問「ハードディスク・ドライブは,他のハードウエアより頻繁に取り替える必要があるか」への回答に対し,Schroeder氏とGarth氏は,HPCクラスタと2つのISPにおけるデータを検証した。その結果,ノードのダウンタイムや故障は,高い確率でハードディスク・ドライブの故障が根本の原因であることが判明した。
ハードドライブは,これらの3つの調査対象の中でもっとも故障しやすいトップ3のコンポーネントの1つであり,故障率は18.1%から49.1%の範囲だった。HPCの場合,CPU,マザーボード,RAM DIMMの数量に関する詳細な情報があったため,この環境におけるハードドライブとRAM DIMMの故障率は,5年間でおよそ同率であったという驚くべき結論に達した。ハードドライブには多数の電子部品が使われているのにDIMMには使われていないことを考えると,この結果はユーザーの持つ直感とは異なるかもしれない。なおCPUはハードドライブより250%故障率が低く,マザーボードはハードドライブよりも50%故障率が低い。
HDDの年間交換率は3%,SATA,SCSI,FCで違いなし
ハードディスク・ドライブのメーカーが平均故障時間(MTTF)の測定方法を通常開示しないことを考えると,2番目の「ハードドライブ・ベンダーが出す信頼性の測定結果はどれほど正確か」への調査結果は重要である。この研究データでは,ハードドライブの年間交換率(annual replacement rate: ARR)は3%で,メーカーの試算よりずっと高いことが示されている。メーカーのデータシートに記載されているもっとも高い年間故障率(annualized failure rate: AFR)が0.88%だったことを考えると,メーカーは3倍以上も低いデータを提示していたことになる。しかし,このデータからはSATA,SCSI,ファイバチャネル・ドライブの信頼性の相違については読み取れない。
ハードディスクは次々壊れる?
3番目の質問「ハードドライブ故障の統計性において,主要な仮定はどの程度本当か」への回答は,特にExchange Server管理者にとって興味深いものであろう。例えば多くのExchange Server管理者が,RAIDをデータ保護テクノロジとして使っているだろう。ハードドライブが故障しても,RAIDが機能していればデータは保護される,と考えているからだ。
これは「1台目のハードディスクが故障しても,2台目のハードディスクはすぐに故障しない」ことを前提としている。しかし,この前提は正しいとは言えないようだ。エラーが立て続けに生じると,ハードディスク・ドライブが故障する確率も増加する。この発見は,環境や電力状況,メーカーによる欠陥が同じアレイ内の複数のハードディスクに及ぼす可能性--といった,様々な側面から説明できるかもしれない。この質問に対するすべての調査結果を記すスペースはないが,肝心なことは,短期間にExchangeのハードドライブに複数のエラーが生じても心配ないなどとは思ってはいけない,ということだ。
Schroeder氏とGarth氏の調査内容を理解するには,この報告書をすべて読む必要がある。例えばこの報告書では,長期に渡って計算されたARRのデータがいくつか紹介されていて,故障率を表す従来の「バスタブ曲線」モデルが間違いであることや,ハードドライブの交換率は,初期の通電テスト期間後でも低いレベルで安定するわけではないことが示唆されている。これと同じような調査を,MicrosoftやExchangeのホスティング会社にあるような大規模なExchange環境で行い,このデータと比較した結果を見てみたい。もしそういうデータがあれば,比較しなくともそれだけでも非常に興味深いだろう。