あなたのHDDの寿命は何年なのか:データセンターでの記録から分かったこと
工業製品の故障率は一般に「バスタブ曲線」に従う。初期と末期の故障率が高く、中間期は低い。ところが、Backblazeが自社のデータセンターで利用するHDDについて故障率を調べたところ、バスタブ曲線に従っていないことが分かった。それではHDDの寿命はどのように計算できるのだろうか。
Backblazeは2021年12月12日(米国時間)、自社データセンターにおけるHDDとSSDの使用統計について発表した。同社は継続的に四半期レポートと年間レポートを発表しており、年間平均故障率(AFR:Annualized Failure Rate)を算出、報告している。
同社が調査対象としているHDDは20万台を超え、約90%は利用開始から4年以上が経過している。ブランド別ではSeagate Technology(51%)、東芝(22%)、HGST(22%)、Western Digital(5%)だ。容量別に見ると、60%以上が12TBまたは14TBだった。
そもそもHDDの寿命とは何か
故障率と寿命について考える際には、そもそも故障率や寿命という言葉の定義を決める必要がある。
まずは故障率だ。故障率という言葉を使う際には時間を考えなければならない。購入した後、1週間で故障したHDDの故障率と、1年後の故障率は当然異なるだろう。そこでBackblazeはAFRを計算し、公開している。AFRを使用することで、全ての故障率を年率に換算し、タイムフレーム(1カ月、1年、3年など)に関係なく、異なるHDDの集団を比較できる。
次は寿命だ。HDDの一部が非常に長持ちすると、平均寿命を計算するのは難しくなる。また、少数の外れ値があると、平均値が不自然にずれて意味のある値が求まらなくなる。そのため、算出すべき数値は、新しいHDD群の寿命の中央値とした。これは、新しいHDD群を使い始めてから、そのうち50%のHDDが故障するまで(生存率が50%に低下するまで)の期間を寿命とするということだ。
バスタブ曲線はHDDにはうまく当てはまらない
信頼性エンジニアは、機器の予想される故障率を表すために、いわゆる「バスタブ曲線」を使用する。バスタブ曲線(下図の青い実線)は、時間の経過による故障率の変化を示し、故障率が次第に低下する「初期故障期」(下図で左の縦の破線の左側の期間)、故障率がほぼ一定で推移する「偶発故障期」(下図で2つの縦の破線で挟まれた期間)、故障率が次第に上昇する「摩耗故障期」(下図で右の縦の破線の右側の期間)の3つの期間に区分される。
だが、Backblazeが2021年に、HDDの6年分の使用データから故障率の推移を調べたところ、バスタブ曲線には当てはまらなかった。
故障率(下図の赤い実線)は、最初の3年間は2%以下にとどまっており、低下傾向にはなかった。さらに5年目以降は急上昇している。このデータの傾向線(2次多項式に当てはめた点線)をプロットすると、放物線状のカーブが現れる。左側がかなり低く、バスタブというよりも、ホッケースティックのような形になった。
HDDの生存率は4年目から加速度的に下がる
BackblazeがAFRを算出するために収集しているデータは、HDDの寿命を計算するために使用することもできる。収集したデータに、HDDの寿命予測手法を適用したところ、次のグラフが得られた。
HDDの寿命は最初の4年間は年率2〜2.5%の安定した割合で短くなった。その後は寿命が加速度的に短くなっていく(先ほどの「BackblazeにおけるHDDの四半期ごとのAFR推移」のグラフでも、4年目から故障率が上昇している)。使用開始から6年後の寿命は65%だ。つまり、6年前にHDDを購入した場合、現在も稼働している確率は65%ということになる。
HDDの寿命はどのくらいか
使用開始から6年以上経過したHDDはどうなるのか。
Backblazeのデータセンターでは、HDDの使用開始から6年を超えると、残っているHDDの数がかなり減る(故障以外の要因でも交換するため)。そのため、残っているHDDは、ほぼ1つまたは2つのモデルだけで構成されるようになり、信頼できる十分なデータがそろわない。そこで同社は、6年目までのデータを使い、寿命を外挿し、HDDの半数が故障する時点を推定した。
HDDの寿命(中央値)は、6年9カ月と推定するのが妥当だと、Backblazeは述べている。これは、同社が収集した最小限のデータと一致しているという。
ただし、前述の通り、今回のデータは十分には信頼できないと、同社は強調する。「それでも、当社が使っている全ての異なるモデルにおいて、HDDが6年以上稼働することは分かっている」と同社は説明し、今後も数カ月、数年をかけてデータを蓄積し、何か変化があるかどうかを確認していくとしている。
なお、Backblazeは報告の最後に、HDDは「必ず」故障するため、残しておかなければならないデータは「3-2-1」ルールに従ってバックアップすべきだと述べている。これはバックアップを3つ取り、そのうち2つはローカルの別の場所に、1つは遠隔地やクラウドに置くというルールだ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 【続報】故障しにくいHDDはどれか? SSDとも比較
クラウドストレージを提供するBackblazeは、自社のデータセンターにおけるHDDとSSDの使用統計レポートを発表した。故障しにくいHDDがどれか、故障しやすいHDDがどれかが分かる。SSDについてもHDDと比較した。 - 最新のHDD、故障しやすいのか?
クラウドストレージを提供するBackblazeは、自社データセンターで使用中のHDDについて使用年数別に故障率を調査した。2013年の調査結果と最新の結果を比較した結果、故障パターンがかなり変化していることが分かった。 - 「SSD」と「HDD」はどちらが故障しやすいのか?
クラウドストレージを手掛けるBackblazeは、自社データセンターで使ってきたSSDとHDDの故障率の比較結果を報告した。単純な比較ではSSDの故障率が6分の1以下になったが、よく調べてみるとこれとは異なる結果が出た。