バックアップを効率化する重複排除テクノロジ

バックアップを効率化する重複排除テクノロジ(1)

重複排除とは何か


株式会社シマンテック
プロダクトマーケティング部 プロダクトマーケティングマネージャ
浅野 百絵果
2010/6/1

 バックアップの実態

- PR -

 バックアップではその特性から多くの重複データを取り扱うことになるが、それは定期的にフルバックアップを実行する必要性に迫られていることに起因する。

 例えば、「週に1度フルバックアップを実行し、そのほかの日は毎日差分バックアップを実行する」という運用ポリシーを策定したとする。月曜日にフルバックアップを実行し、火曜日から金曜日は差分バックアップとするといったような形だ。ここで金曜にトラブルが発生したとき、前日(木曜日)のバックアップ時点の状態にリストアするためには、まず直近の月曜日に実行したフルバックアップをリストアし、火曜日から木曜日までの差分バックアップをリストアする必要がある。フルバックアップを少なくとも週に1度は実施しないとリストアの手間が増え、即時復旧が困難になってしまう。

 しかし、考えてみてほしい。前回フルバックアップを実施してから1週間の間に、どれぐらいのデータが新規に作成されるだろうか? 恐らくほとんどのデータは重複しているのではないだろうか。特にファイルサーバでは、サーバ上の既存データを開いて編集、上書きすることはあまりなく、ほとんどは新規作成によって追加されるデータか、編集して別名保存されるデータだろう。追加データが1日に0.1〜0.2%だとすると、1週間で新規に追加されるデータの量は、全体の0.5〜1.0%にすぎないということになる(土曜日と日曜日はデータの変更がないと仮定)。つまりフルバックアップのうち99%は、前回すでにフルバックアップしたのとまったく同じデータをバックアップしていることになる。

 重複排除によるコスト削減効果は?

 この計算式を、実際の企業データに当てはめてシミュレーションをしてみよう。2Tbytesのデータ量で、1日のデータ増加率は0.2%、つまり年間で68%増加するとする。また、企業内に重複するブロックが5%あるとする。週に1度のフルバックアップと、それ以外の平日の差分バックアップを実施すると仮定して、これを実際に計算してみた。便宜上、月曜日にフルバックアップを実施することにして、データ量は初回のフルバックアップの場合で2Tbytes、重複部分が10%あるので重複排除バックアップでは1.9Tbytesになる。2日目(火曜日)の差分バックアップでは、0.2%増加した2.004Tbytesが対象となり、前回バックアップ以降の増加分がバックアップの対象となる。日次で実施するバックアップのデータ量の累計が、保管に必要なストレージ容量ということになる。

Days   データ
増加率
データ量 フル+差分 重複排除
バックアップ
データ量
累計
データ量
バックアップ
データ量
累計
データ量
1 2.00000 2.00000 2.00000 1.90000 1.90000
2 0.002 2.00400 0.00400 2.00400 0.00380 1.90380
3 0.002 2.00801 0.00401 2.00801 0.00381 1.90761
4 0.002 2.01202 0.00402 2.01202 0.00382 1.91142
5 0.002 2.01605 0.00402 2.01605 0.00382 1.91525
6 0 2.01605 0.00000 2.01605 0.00000 1.91525
7 0 2.01605 0.00000 2.01605 0.00000 1.91525
8 0.002 2.02008 2.02008 4.03613 0.00383 1.91908
9 0.002 2.02412 0.00404 4.04017 0.00384 1.92291
10 0.002 2.02817 0.00405 4.04422 0.00385 1.92676
11 0.002 2.03222 0.00406 4.04827 0.00385 1.93061
12 0.002 2.03629 0.00406 4.05234 0.00386 1.93447
13 0 2.03629 0.00000 4.05234 0.00000 1.93447
14 0 2.03629 0.00000 4.05234 0.00000 1.93447
〜中略〜
180 0.002 2.58801 0.00517 59.55595 0.00491 2.45861
181 0 2.58801 0.00000 59.55595 0.00000 2.45861
182 0 2.58801 0.00000 59.55595 0.00000 2.45861
183 0.002 2.59319 2.59319 62.14914 0.00492 2.46353

 この運用を半年間続けたとして、それらを保管するためのストレージの容量は、なんと62.15Tbytesにもなる。(上記183日目)重複データの保存を完全に回避できたと仮定した場合のバックアップデータ量は、同じ運用で、2.46Tbytesだ。計算上は、96%もの削減になる。62Tbytesと2.5Tbytesでは、それを収容するためのストレージのコストに雲泥の差が出ることは、ここで触れるまでもないだろう。余談だが、この計算では企業内の重複データの割合を5%としたが、これを0%とした場合でも、計算上は大きな差が出ない(半年後のバックアップデータ量は約2.6Tbytes)。企業規模がある程度大きくないと社内の重複データの割合が多くないので効果が少ないと思われがちだが、週に一度のフルバックアップにおける重複の方がそれよりずっと多いため、小規模企業にとっても重複排除はメリットがあるということがこのシミュレーションで分かった。

 このように、重複排除技術はバックアップに非常に有効で、また企業規模にかかわらずストレージの削減効果が期待できる。今回は重複排除の基本的な仕組みとそれをバックアップに適用する場合の効果について触れた。次回は、実際にそれを適用する手法について解説する。

2/2
 

Index
重複排除とは何か
  Page1
増加し続ける企業内データにどう立ち向かうか?
重複排除の基本的な考え方
重複排除を使ったバックアップ
Page2
バックアップの実態
重複排除によるコスト削減効果は?

Server & Storage フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Server & Storage 記事ランキング

本日 月間