解説情報ライフサイクル管理がストレージ危機を救う?デジタルアドバンテージ2004/09/15 |
|
|
EMCやHewlett-Packard(HP)などのネットワーク・ストレージ・ベンダ各社は、「情報ライフサイクル管理(ILM:Information Lifecycle Management)」と呼ぶ情報管理手法を提唱している。その実現のためにEMCはLegato、Documentum、VMWareなどの企業を、またHPはPersist Technologiesなどを買収している。情報ライフサイクル管理とは何なのか、なぜネットワーク・ストレージ・ベンダが情報ライフサイクル管理を推進しているのか、について解説しよう。
増大する情報が管理の破綻を招く
Windows 95の登場によって企業内のクライアントPCは大幅に増加した。その後のインターネットの普及など、正確な統計データはないものの企業内で生成、保存されるデータ量は、1995年以降、指数的に増えているはずだ。電子メールだけに着目しても、個人がやりとりするデータ量は10年前なら1日当たり数Kbytesにも満たなかったのではないだろうか。当時は、電子メールそのものを使っていなかった人も多かった。ところが、ここ3年ほどの間、状況は一変し、いまや多くのビジネス文書が電子メールでやりとりされるようになっている。そしてそのデータは、テキストだけの単純なものから、写真や図版の入った複雑なものへと変化している。やがて、ビデオなどもごく普通に電子メールでやりとりされるようになるかもしれない。
このようにやりとりされた情報は、必ずしも長期間にわたって保存が必要なものばかりではない。しかし、受信した電子メールは、何かのために数日間は残しておくという人も多いだろう。ところが、数日経ってしまうと、そのメールは受信ボックス内で埋もれてしまい、結果、削除されずに残ることになる。同様のことは、サーバに蓄積されている情報にもいえる。企業のサーバに蓄積されている企画書や経理データ、顧客データなど、ある一定期間後、廃棄できるにもかかわらず、それらがストレージに保存された状態にあるのだ。こうした情報は、一定期間のアクセスの有無によって判断し、管理者がユーザーに連絡して削除を促したり、ストレージ・コストが安いテープなどに移動したりしているのが現状だ。しかし、バックアップなどの作業を含めて、1人の管理者が管理できるストレージ容量は1Tbytes程度といわれており、ある程度の企業規模ではすでに超え始めているという。管理者を増やすことは、管理コストの上昇につながることから、企業は管理者を増やすのを避ける傾向にある。つまり、既存の管理者によって、コストをあまりかけずに、増え続けるストレージ容量を持続的に管理できる手法を採用する必要があるわけだ。
一方で、情報漏えいの証拠などのために、電子メールの履歴をメール・サーバ側で保存するケースも増え始めている(電子メールを利用して顧客情報が流出するケースがあるため)。こうした情報は、実際に事件が起きなければ活用されることはないが、削除できない大事な情報ということになる。こうした情報は、一定期間後、無条件でテープなどの媒体に移動しても構わない。
このように単に一口で「情報」といっても、活用中のもの、活用中ではないが上手に活用すれば業務に活かせるはずのもの(マーケティング戦略の構築や新製品の開発に生かせるなど)、保存は必要だが参照されることは極めてまれなもの、本来は不要なもの、といったように大まかに分類することができる。しかし、現状ではすべて同じ「情報」として管理されているのが実情だろう。このような状態は、活用可能な情報もストレージに埋もれる結果となる。検索に時間がかかったり、不要な情報ばかりがヒットしてしまったり、といったことになりかねない。「上手に活用すれば業務に活かせるはずのもの」が企業内で生かされないことになる。つまり、このような「情報」の増大は、企業のストレージを圧迫し、管理を難しくするだけでなく、本来は活用できる情報さえも無駄にしてしまっている可能性があるわけだ。
このような企業のストレージ/情報管理の状況が、「情報ライフサイクル管理」が提唱される背景にある。企業内のストレージ容量が大きくなることは、ストレージ・ベンダにとって追い風であるが、一方で1人の管理者で管理できる容量を超え、管理コストを含めたストレージ・コストが高くなることは逆風となるからだ。これまでと同様、企業内のストレージ容量を順調に成長させる一方、管理者の負担を軽減することが、さらなるストレージ容量の増大を生むことになる。その解決手段として、情報ライフサイクル管理が登場したわけだ。
情報ライフサイクル管理のコンセプトとは
情報ライフサイクル管理のコンセプトは非常に明解だ。前述のように情報の価値は一定ではない。さらに時間軸によって変化する。企業買収などによって、情報の価値が劇的に変化する場合もある。情報には常に更新されるものと、まったく更新されないものもある。例えば、現在動いているプロジェクトのデータなどは常に更新されるだろうが、すでに終了してしまったプロジェクトや過去の財務データなどは、参照されることはあっても書き換えられることはない。むしろ、過去の財務データなどは書き換えられては困るだろう。こうした情報を、これまでのように高速かつ高価なストレージに保存し続けることは、結果としてストレージのコストを大きく引き上げることになる。
下図のように、多くの情報は、時間が経過すると参照が行われなくなり、その価値も低下する。しかし、財務データなどのように法律で保存が義務付けられているものもある。そうした情報は、参照されないからといって削除することはできない。そこで各情報に属性を付け、参照性の低い情報は遅いシリアルATAディスクを採用したSANストレージに移動したり、まったく参照されないが削除できない情報はテープにバックアップしてストレージから削除したり、といった作業を行う。
時間経過と情報の価値 |
図は、時間経過と情報の価値を模式的に示したものだ。多くのデータは、時間が経過することで、価値が失われていく。しかし、企業においては法律などの制約から、価値がないからといってストレージから削除できないものもある。 |
これにより、実際に管理が必要となる「アクティブ」な情報の容量を減らすことで、管理者の手間を削減するわけだ。また、これまでの高速かつ高価なストレージから、情報価値に合ったストレージに再配置することで、ストレージ全体のコストを引き下げることを可能にする。つまり、情報ライフサイクル管理とは、ストレージに蓄積されている「情報」を価値と参照性によって、高いものから低いものに分類し、その分類に合わせて最適なストレージへ自動的に再配置するという管理手法である。
だが実際に情報の価値を分類したり、再配置したりするのは容易なことではない。そこで、こうした情報の分類や再配置には、Documentum(EMC)のContent Storage Servicesといったコンテンツ管理ソフトウェアが利用される。これにより、情報の分類などが自動化され、管理者は意識することなく日々の運用が行えるようになるという。情報の属性と、それに対するストレージ、どのようなステータスでストレージ間の移動を行うのか、などのルールは、ユーザーによって異なるので、それについては導入時にユーザーがポリシーを作成することで対応することになる。
ストレージ・コスト削減には仮想化技術も必要?
さて情報を適材適所に再配置するには、配置先となる低価格のストレージ(シリアルATAドライブやテープ・ドライブなど)が必要となる。ちなみに、情報が直接オンラインで読み出せなくなることからテープ・ドライブ(テープ)を「オフライン」、ファイバ・チャネル・ディスクなどを「オンライン」と呼ぶ。それに対し、シリアルATAドライブなどの低速なハードディスクを、オンラインながらオフラインに近い存在ということで「ニアライン」と呼んでいる。
情報ライフサイクル管理には、これまで高速かつ信頼性が高いストレージだけに集中していた情報を、速度や信頼性を多少犠牲にしてもコストが安いニアライン・ストレージに自動再配置することで、ストレージ・コストの削減を目指す、という面もある。
「コラム:ストレージの利用効率」で示した簡単な計算結果を見ても分かるように、高価なストレージの利用効率を高めることはコスト削減につながる。しかし、情報は増大する一方なので、将来を見越した容量の大きなストレージを導入しがちだ。そこで、情報ライフサイクル管理を導入し、高価なストレージを最低限にし、代わりにシリアルATAストレージなどを導入することで、高価なストレージの利用効率を高めることが可能になる(増大する情報は、安価なシリアルATAストレージで吸収する)。
だがシリアルATAストレージなどの導入は、全体としてのストレージ・コストの削減には役立つが、一方でストレージ・ユニットが増え、その分、管理の手間が増えることにもなりかねない。特に、情報を適切なストレージに再配置する過程で、ユーザーからのアクセス場所が変わってしまうと、ユーザーへの告知あるいは教育などが必要になり、コストがかさんでしまう。本来、ストレージ管理の手間を削減するために導入した情報ライフサイクル管理によって、異なる手間が増えるのでは意味がない。
コラム ストレージの利用効率 ストレージの利用効率は、調査会社などのデータによると30〜40%であるといわれている。ここで、簡単にストレージの利用効率の計算をしてみよう。当初、1Tbytesのデータを持つ会社を想定し、その会社は年率30%で情報量が増えると仮定する。そうすると、5年後には約3.7Tbytesのデータを持つことになる。一般的にSANストレージの寿命は、サーバと同様、4〜5年といわれている。そこで、5年間の利用を考え、その間増設などをしないケースでは、当初から容量4Tbytes以上のストレージを導入する必要があるわけだ。ここで5年間のストレージの利用効率を計算してみると、約52%となる。実際には、5年目でストレージの余裕がほとんどなくなることから、5T〜6Tbytesのストレージを導入しておく必要がある。この場合、利用効率は42〜35%に下がる。
ここでの問題は、5年間の利用を考えて、当初から容量の大きなストレージを導入する点にある。もし適宜、ストレージの増設が行えれば、利用効率を向上させることができれば、ストレージ単価を大幅に引き下げることができる。単純に、利用効率が35%であったものを、2倍の70%に引き上げられれば、ストレージ単価は1/2になる。 |
そこで登場するのが仮想化技術である。仮想化技術によって、複数のストレージを大きな1つの仮想ストレージにできれば、ユーザーや管理者は情報の保存場所などを意識せずに利用できるようになる。例えば、コンテンツ管理ソフトウェアによって、遅いストレージに情報が移動されてしまっても、ユーザーは読み出しが多少遅いと感じるかもしれないが、情報が異なるストレージに移動されたとは気付かないだろう。アクセス頻度が高い情報は、高速なストレージで集中的に管理されることになるので、高速なストレージが遅いストレージのキャッシュのような役割を担うことにもなる。このような仕組みによって、遅いストレージが接続されていて、ストレージ全体の性能は低下することがない。このように、情報ライフサイクル管理とともに最近話題になることが多い仮想化技術は、ストレージ分野においてはクルマの両輪として機能するものなのだ。EMCが仮想化ソフトウェア・ベンダのVMwareを買収した理由はここにある。
このように情報ライフサイクル管理を実現するには、ストレージやソフトウェアなど多くのコンポーネントが必要となる。現在のところ提供されている情報ライフサイクル管理ソリューションは、大企業の基幹業務向けの大掛かりなものばかりである。残念ながら中小企業や部署などのレベルで導入できるものではない。すでに中小企業においても、増え続ける情報によって、ストレージ管理は破綻寸前である。より手軽な情報ライフサイクル管理ソリューションの登場が待たれるところだ。
「System Insiderの解説」 |
- Intelと互換プロセッサとの戦いの歴史を振り返る (2017/6/28)
Intelのx86が誕生して約40年たつという。x86プロセッサは、互換プロセッサとの戦いでもあった。その歴史を簡単に振り返ってみよう - 第204回 人工知能がFPGAに恋する理由 (2017/5/25)
最近、人工知能(AI)のアクセラレータとしてFPGAを活用する動きがある。なぜCPUやGPUに加えて、FPGAが人工知能に活用されるのだろうか。その理由は? - IoT実用化への号砲は鳴った (2017/4/27)
スタートの号砲が鳴ったようだ。多くのベンダーからIoTを使った実証実験の発表が相次いでいる。あと半年もすれば、実用化へのゴールも見えてくるのだろうか? - スパコンの新しい潮流は人工知能にあり? (2017/3/29)
スパコン関連の発表が続いている。多くが「人工知能」をターゲットにしているようだ。人工知能向けのスパコンとはどのようなものなのか、最近の発表から見ていこう
|
|