バックアップの実態
- - PR -
バックアップではその特性から多くの重複データを取り扱うことになるが、それは定期的にフルバックアップを実行する必要性に迫られていることに起因する。
例えば、「週に1度フルバックアップを実行し、そのほかの日は毎日差分バックアップを実行する」という運用ポリシーを策定したとする。月曜日にフルバックアップを実行し、火曜日から金曜日は差分バックアップとするといったような形だ。ここで金曜にトラブルが発生したとき、前日(木曜日)のバックアップ時点の状態にリストアするためには、まず直近の月曜日に実行したフルバックアップをリストアし、火曜日から木曜日までの差分バックアップをリストアする必要がある。フルバックアップを少なくとも週に1度は実施しないとリストアの手間が増え、即時復旧が困難になってしまう。
しかし、考えてみてほしい。前回フルバックアップを実施してから1週間の間に、どれぐらいのデータが新規に作成されるだろうか? 恐らくほとんどのデータは重複しているのではないだろうか。特にファイルサーバでは、サーバ上の既存データを開いて編集、上書きすることはあまりなく、ほとんどは新規作成によって追加されるデータか、編集して別名保存されるデータだろう。追加データが1日に0.1〜0.2%だとすると、1週間で新規に追加されるデータの量は、全体の0.5〜1.0%にすぎないということになる(土曜日と日曜日はデータの変更がないと仮定)。つまりフルバックアップのうち99%は、前回すでにフルバックアップしたのとまったく同じデータをバックアップしていることになる。
重複排除によるコスト削減効果は?
この計算式を、実際の企業データに当てはめてシミュレーションをしてみよう。2Tbytesのデータ量で、1日のデータ増加率は0.2%、つまり年間で68%増加するとする。また、企業内に重複するブロックが5%あるとする。週に1度のフルバックアップと、それ以外の平日の差分バックアップを実施すると仮定して、これを実際に計算してみた。便宜上、月曜日にフルバックアップを実施することにして、データ量は初回のフルバックアップの場合で2Tbytes、重複部分が10%あるので重複排除バックアップでは1.9Tbytesになる。2日目(火曜日)の差分バックアップでは、0.2%増加した2.004Tbytesが対象となり、前回バックアップ以降の増加分がバックアップの対象となる。日次で実施するバックアップのデータ量の累計が、保管に必要なストレージ容量ということになる。
Days | データ 増加率 |
データ量 | フル+差分 | 重複排除 | |||
バックアップ データ量 |
累計 データ量 |
バックアップ データ量 |
累計 データ量 |
||||
1 | 月 | − | 2.00000 | 2.00000 | 2.00000 | 1.90000 | 1.90000 |
2 | 火 | 0.002 | 2.00400 | 0.00400 | 2.00400 | 0.00380 | 1.90380 |
3 | 水 | 0.002 | 2.00801 | 0.00401 | 2.00801 | 0.00381 | 1.90761 |
4 | 木 | 0.002 | 2.01202 | 0.00402 | 2.01202 | 0.00382 | 1.91142 |
5 | 金 | 0.002 | 2.01605 | 0.00402 | 2.01605 | 0.00382 | 1.91525 |
6 | 土 | 0 | 2.01605 | 0.00000 | 2.01605 | 0.00000 | 1.91525 |
7 | 日 | 0 | 2.01605 | 0.00000 | 2.01605 | 0.00000 | 1.91525 |
8 | 月 | 0.002 | 2.02008 | 2.02008 | 4.03613 | 0.00383 | 1.91908 |
9 | 火 | 0.002 | 2.02412 | 0.00404 | 4.04017 | 0.00384 | 1.92291 |
10 | 水 | 0.002 | 2.02817 | 0.00405 | 4.04422 | 0.00385 | 1.92676 |
11 | 木 | 0.002 | 2.03222 | 0.00406 | 4.04827 | 0.00385 | 1.93061 |
12 | 金 | 0.002 | 2.03629 | 0.00406 | 4.05234 | 0.00386 | 1.93447 |
13 | 土 | 0 | 2.03629 | 0.00000 | 4.05234 | 0.00000 | 1.93447 |
14 | 日 | 0 | 2.03629 | 0.00000 | 4.05234 | 0.00000 | 1.93447 |
180 | 金 | 0.002 | 2.58801 | 0.00517 | 59.55595 | 0.00491 | 2.45861 |
181 | 土 | 0 | 2.58801 | 0.00000 | 59.55595 | 0.00000 | 2.45861 |
182 | 日 | 0 | 2.58801 | 0.00000 | 59.55595 | 0.00000 | 2.45861 |
183 | 月 | 0.002 | 2.59319 | 2.59319 | 62.14914 | 0.00492 | 2.46353 |
この運用を半年間続けたとして、それらを保管するためのストレージの容量は、なんと62.15Tbytesにもなる。(上記183日目)重複データの保存を完全に回避できたと仮定した場合のバックアップデータ量は、同じ運用で、2.46Tbytesだ。計算上は、96%もの削減になる。62Tbytesと2.5Tbytesでは、それを収容するためのストレージのコストに雲泥の差が出ることは、ここで触れるまでもないだろう。余談だが、この計算では企業内の重複データの割合を5%としたが、これを0%とした場合でも、計算上は大きな差が出ない(半年後のバックアップデータ量は約2.6Tbytes)。企業規模がある程度大きくないと社内の重複データの割合が多くないので効果が少ないと思われがちだが、週に一度のフルバックアップにおける重複の方がそれよりずっと多いため、小規模企業にとっても重複排除はメリットがあるということがこのシミュレーションで分かった。
◇
このように、重複排除技術はバックアップに非常に有効で、また企業規模にかかわらずストレージの削減効果が期待できる。今回は重複排除の基本的な仕組みとそれをバックアップに適用する場合の効果について触れた。次回は、実際にそれを適用する手法について解説する。
2/2 |
Index | |
重複排除とは何か | |
Page1 増加し続ける企業内データにどう立ち向かうか? 重複排除の基本的な考え方 重複排除を使ったバックアップ |
|
Page2 バックアップの実態 重複排除によるコスト削減効果は? |
- Windows 10の導入、それはWindows as a Serviceの始まり (2017/7/27)
本連載では、これからWindows 10への移行を本格的に進めようとしている企業/IT管理者向けに、移行計画、展開、管理、企業向けの注目の機能について解説していきます。今回は、「サービスとしてのWindows(Windows as a Service:WaaS)」の理解を深めましょう - Windows 10への移行計画を早急に進めるべき理由 (2017/7/21)
本連載では、これからWindows 10への移行を本格的に進めようとしている企業/IT管理者に向け、移行計画、展開、管理、企業向けの注目の機能を解説していきます。第1回目は、「Windows 10に移行すべき理由」を説明します - Azure仮想マシンの最新v3シリーズは、Broadwell世代でHyper-Vのネストにも対応 (2017/7/20)
AzureのIaaSで、Azure仮想マシンの第三世代となるDv3およびEv3シリーズが利用可能になりました。また、新たにWindows Server 2016仮想マシンでは「入れ子構造の仮想化」がサポートされ、Hyper-V仮想マシンやHyper-Vコンテナの実行が可能になります - 【 New-ADUser 】コマンドレット――Active Directoryのユーザーアカウントを作成する (2017/7/19)
本連載は、Windows PowerShellコマンドレットについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、「New-ADUser」コマンドレットです
|
|