Backblazeは、2023年第3四半期の自社データセンターにおけるデータドライブの統計レポートを発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
クラウドストレージやクラウドバックアップサービスを提供するBackblazeは2023年11月14日(米国時間)、2023年第3四半期の自社データセンターにおけるデータドライブの統計レポートを発表した。
2023年第3四半期末の時点で、Backblazeは世界中のデータセンターで26万3992台のHDDとSSDを管理していた。そのうち4459台が起動ドライブ(SSD:3242台、HDD:1217台)だった。同レポートでは、25万9533台のデータドライブ(全てHDD)に焦点を当て、2023年第3四半期と生涯の故障率を報告した。
2023年第3四半期では、顧客データの保存に使用されるこの25万9533台のハードドライブから、449台(テスト目的で使用されていたドライブと、ドライブの使用台数が60台に満たないモデルのドライブ)を除いた25万9084台のハードドライブを分析し、これらを構成する32種類のモデル別に年間平均故障率(AFR:Annualized Failure Rate)を算出した。
Avg. Age(months):平均使用期間(月数)、Drive Days:正常稼働日数、Drive Failures:ドライブの故障件数
Backblazeは2023年第3四半期に、新たに22TBドライブを導入した。上の表の最下行にあるWestern Digital(WDC)の「WUH722222ALE6L4」だ。このモデルの1204台のドライブのうち、1200台は9月29日に設置され、第3四半期の稼働日数は1日のみだった(他の4台は、第3四半期初めに設置)。これらのドライブの故障はゼロだった。
平均稼働期間が101カ月(8年5カ月)と最も長いSeagate Technologyの6TBモデル「ST6000DX000」(883台)は、2023年第3四半期には故障ゼロを記録し、生涯AFRは0.88%となった。
第3四半期には、6つのドライブモデルが故障ゼロだった。ただし、一般的に、統計的に意味を持つためには、ドライブモデルは1四半期の正常稼働日数が合計で5万日以上である必要がある。この6つのモデルのうち、この基準をクリアしているのは、上記のSeagateのST6000DX000のみだった。
第3四半期に故障が1件のみだったドライブモデルは4つある。このうち稼働日数が5万日以上であるモデルは、以下の2つだった。
2023年第3四半期の全データドライブのAFRは1.47%となり、前期(第2四半期)の2.2%、前年同期の1.65%から低下した。
第1四半期の全データドライブのAFRは1.54%で、第2四半期はこれより上昇していた。そこでBackblazeは、第2四半期のレポートでその原因を検討し、ドライブの使用期間が全体的に長くなっている中、特に、特定の8TB、10TB、12TBモデルがAFRを押し上げた可能性を指摘した。
だが、第3四半期には、ドライブモデルのほぼ3分の2でAFRが前期比で低下し、他のモデルもわずかな上昇にとどまった。これらのモデルには、第2四半期のAFR上昇の原因と推測された8TB、10TB、12TBモデルも含まれる。
このことからBackblazeは、2023年第2四半期は異例だったようだと述べた。だが、その一方で、第3四半期の第2四半期との大きな違いとして、古くなった4585台の4TBドライブの使用を停止したことを挙げた。これらのドライブの平均使用期間は8年強だった。
Backblazeは、第3四半期にデータドライブ全体のAFRが低下したことを、「幸先の良いスタート」と捉え、まだ残っている2万8963台の4TBドライブについても、使用を停止していく考えを示した。これらの4TBドライブも、平均使用期間が80カ月(6年8カ月)を超えている。
Backblazeは、米航空宇宙局(NASA)が2023年9月、「2023年の夏は1880年の観測開始以来、最も暑い夏となった」と確認したことを引き合いに出し、今後ますます暑くなる夏に備えて、この夏にメーカー指定の最高温度を超えたデータドライブについて、追跡調査を行うことを明らかにした。
Backblazeによると、ドライブの第3四半期の温度データを調べたところ、354台(全体の0.0013%)のドライブが少なくとも1日間、メーカー指定の最高温度(ほとんどのドライブは60度)を超えたことが分かった。このうち2台が故障し、第3四半期末時点で稼働していたドライブは352台だった。
温度変動はデータセンター運営に付きものであり、こうした温度上昇は前例のないものではない。だが、Backblazeはこの352台のドライブについて、今夏の温度上昇の根本原因を調査するとともに、第4四半期からこれらのドライブを、通常の使用統計におけるAFRの計算から除外し、「ホットドライブ」として別途調査していく。
ホットドライブに含まれるドライブの数は限られている。だが、ホットドライブの今後の故障率を、メーカーの仕様内で動作してきたドライブと比較することで、高温にさらされたドライブで故障頻度が高まるかどうかについての洞察が得られる可能性があると、Backblazeは説明している。
Backblazeによると、ストレージサーバのドライブが過熱する理由は、「故障している」「ストレージサーバのファンが故障している」「他のコンポーネントが高い熱を発している」「空気の流れが何らかの理由で制限されている」など多岐にわたる。これらの要因に加えて、データセンター内の周囲温度が夏季に頻繁に上昇すると、温度アラートが増加し得るという。
Backblazeは2023年第3四半期から、5つのデータセンター別のドライブ故障率も報告し始めた。第3四半期のAFRは、最も低いデータセンターで1.00%、最も高いデータセンターで1.94%だった。Backblazeは、このデータを追跡していくことで、データセンターによって本当にAFRが異なるか、異なるとすれば、その理由は何かについて、何らかの洞察が得られると期待している。
「2023年第3四半期のハードドライブの故障率」と同様に、Backblazeは25万9084台のハードドライブを分析し、これらを構成する32種類のモデル別に生涯AFRを算出した。
Avg. Age(months):平均使用期間(月数)、Drive Days:正常稼働日数 Drive Failures:ドライブの故障件数 Confidence Interval:信頼区間
上の表の一番右の列にある信頼区間(Confidence Interval)の値が低いほど、AFRはより確かなものになる。信頼区間は0.5%以下であることが望ましいため、上の表から、信頼区間が0.5%未満であるモデルを抽出すると、以下のようになる。上の表はメーカー別にドライブモデルが並んでいるが、下の表は、ドライブサイズとAFRを基準に並べ替えている。
Avg. Age(months):平均使用期間(月数)、Drive Days:正常稼働日数 Drive Failures:ドライブの故障件数 Confidence Interval:信頼区間
2023年第3四半期末におけるハードドライブ全体の生涯AFRは、1.45%となった。だが、ハードドライブ全体の生涯AFRは、四半期ごとにあまり変化していない。この2年間は1.39%から1.45%の間で推移している。
基本的に、Backblazeのデータセンター内の大量のドライブは、種類も使用期間も非常にまちまちであるため、この数字の変動は小さくなる。個々のドライブモデルの生涯AFRは非常に有用だが、全ドライブの生涯AFRは、ドライブが増えるとともに、興味深いものではなくなっていくことに注意する必要がある。
Copyright © ITmedia, Inc. All Rights Reserved.