工業製品の故障率は一般に「バスタブ曲線」に従う。初期と末期の故障率が高く、中間期は低い。ところが、Backblazeが自社のデータセンターで利用するHDDについて故障率を調べたところ、バスタブ曲線に従っていないことが分かった。それではHDDの寿命はどのように計算できるのだろうか。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Backblazeは2021年12月12日(米国時間)、自社データセンターにおけるHDDとSSDの使用統計について発表した。同社は継続的に四半期レポートと年間レポートを発表しており、年間平均故障率(AFR:Annualized Failure Rate)を算出、報告している。
同社が調査対象としているHDDは20万台を超え、約90%は利用開始から4年以上が経過している。ブランド別ではSeagate Technology(51%)、東芝(22%)、HGST(22%)、Western Digital(5%)だ。容量別に見ると、60%以上が12TBまたは14TBだった。
故障率と寿命について考える際には、そもそも故障率や寿命という言葉の定義を決める必要がある。
まずは故障率だ。故障率という言葉を使う際には時間を考えなければならない。購入した後、1週間で故障したHDDの故障率と、1年後の故障率は当然異なるだろう。そこでBackblazeはAFRを計算し、公開している。AFRを使用することで、全ての故障率を年率に換算し、タイムフレーム(1カ月、1年、3年など)に関係なく、異なるHDDの集団を比較できる。
次は寿命だ。HDDの一部が非常に長持ちすると、平均寿命を計算するのは難しくなる。また、少数の外れ値があると、平均値が不自然にずれて意味のある値が求まらなくなる。そのため、算出すべき数値は、新しいHDD群の寿命の中央値とした。これは、新しいHDD群を使い始めてから、そのうち50%のHDDが故障するまで(生存率が50%に低下するまで)の期間を寿命とするということだ。
信頼性エンジニアは、機器の予想される故障率を表すために、いわゆる「バスタブ曲線」を使用する。バスタブ曲線(下図の青い実線)は、時間の経過による故障率の変化を示し、故障率が次第に低下する「初期故障期」(下図で左の縦の破線の左側の期間)、故障率がほぼ一定で推移する「偶発故障期」(下図で2つの縦の破線で挟まれた期間)、故障率が次第に上昇する「摩耗故障期」(下図で右の縦の破線の右側の期間)の3つの期間に区分される。
だが、Backblazeが2021年に、HDDの6年分の使用データから故障率の推移を調べたところ、バスタブ曲線には当てはまらなかった。
Copyright © ITmedia, Inc. All Rights Reserved.