Hadoop→Redshift→その先は？――IoT／ハイブリッド時代の最新トレンドを整理する：“仕事で本当に使える”クラウドデータベースの要件（2/2 ページ）

» 2015年09月28日 05時00分公開

Redshiftが持つ制約とエンタープライズITの現実解「ハイブリッド」

　Redshiftの登場をきっかけに、クラウドデータベースの選択肢は爆発的に増えていった。しかし、Redshiftの登場は「変化のきっかけ」ではあったが、だからといって多くの企業がすぐにそれに飛び付いたわけではない。

　大きな課題の一つが、「Redshiftに大量のデータをどうやってアップロードするか」だった。AWSのクラウド上に全てのシステムがあり、生まれるデータが最初からクラウド上にあるのならばいいだろう。しかし、そうでなければ大量データをインターネット越しにRedshiftに渡さなければならない。これではクラウドデータベースのサービスがいくら安価でも、ネットワークのコストがかさむことになる。

　第二に、AWSの場合、慣れ親しんでいれば問題にはならないが、コマンドラインインターフェース（CLI）を駆使して効率よく運用管理するには、技術ドキュメントを理解する必要などもあり、想定していた以上に運用には手間が掛かるなどの声も聞かれる。さらには、オンプレミス環境とパブリッククラウドでアーキテクチャが異なることなどもあり、スムースにデータ連携するにはそれなりの作り込みも発生しかねない。こうしたことから「ビッグデータの利用は、やはりオンプレミスで」という判断が少なからず行われてきたはずだ。

　ちなみに、オンプレミスとパブリッククラウドで大量データをやりとりするには、オンプレミスとパブリックを個別に専用線で接続するのではなく、データセンター事業者のダイレクトコネクトサービスなどを利用することでコスト問題を解決できる場合もある。

　第三の課題として「クラウドにデータを上げたくない場合は使いにくい」という点が挙げられる。例えば顧客情報や課金に関するデータなどは、いくらクラウドが安全といわれても、手元で管理したいというニーズがなくなることはないだろう。

　また、クラウドにデータを置くと、多くの場合は自動的に各地のデータセンターに分散され、可用性が確保される。この仕組みは可用性確保の面では重要だが、企業のコンプライアンス上は「いただけない」場合がある。国内のデータセンターで分散するのならばいいが、海外のデータセンターが入ってくるとそれがコンプライアンス違反になりかねない。

　この状況を解消するには、複数データセンターを国内に持っているサービスを選ぶか、重要なデータだけはオンプレミスやプライベートクラウドに置く「ハイブリッドクラウド」構成を取るしかない。このハイブリッドクラウドを実現するためもあり、もともとがクラウド上のサービスだったIBMのCloudantは、「Cloudant Local」というオンプレミスでも利用できるバージョンを新たに提供した。

　Cloudantはオンラインゲーム業界などで数多くの実績があるNoSQLデータベースだった。Cloudant Localの登場は、オンラインゲームの課金情報などを手元で管理したいとの顧客の要望を反映した結果でもあると聞く。クラウドしかなかったCloudantが、あえてオンプレミス版を提供した事実は、データベース領域でハイブリッドクラウドの必要性をあらためて認識させられた出来事でもある。

Cloudantはもともとクラウドデータベースに特化していたが、IBMの買収を機にハイブリッドクラウドを念頭にオンプレミス版を追加している。Cloudant LocalのWebサイトでは、ハイブリッドで利用できる点を明確に示している

「IoT」「ハイブリッド」が具現化するエンタープライズでの「ビッグデータ」

　クラウド上のデータベースサービスを「ハイブリッド」で利用できる環境は既に整いつつあり、エンタープライズでの本格的な利用が進みそうな気配があるが、もう一つ、クラウドデータベースの利用を大きく促進しそうなのが、IoT（Internet of Things：モノのインターネット）を活用しようというトレンドだ。

　IoTとひと言で言っても、対象とする機器や利用する業種・業界の幅は広いため、具体的なデータ収集の手法にはさまざまな形態が考えられる。それ故にデータを利用した「出口」のアイデアや実装は、目的に応じて見ていかなければならない。とはいえ、どのような「出口」があるにせよ、間違いないのは、IoTが普及すればするほど、生まれるデータが増えることだ。恐らく、2011年ごろに想定していたビッグデータが対象としてきたデータよりも、さらに大規模なデータを扱う世界が直近に迫ってきている。

　そんな大規模なデータをオンプレミスにため込むのは、もはや現実的ではない。また、IoTでは、インターネット越しにデータを集めることが前提となっている。そうであれば、必然的に「IoTから生まれるデータのハンドリングはクラウドで」となる。

　そして、IoTから生まれるデータの多くは、非構造化データでもある。それを効率よく扱うにはNoSQL型のデータベースも必要だ。さらに、あまりにも大量に生まれるデータを全てため込むのではなく、扱いやすいよう事前に処理し容量を小さくする工夫もいる。そのためにはフローデータ、あるいはストリームデータ処理と呼ばれるものが必要になる。場合によってはエッジデータ処理で、より端末に近いところであらかじめ必要なデータをフィルタリングする仕組みも欲しい。

　フローデータなどを効率的に処理するために必要になるのが、機械学習と呼ばれるような技術だ。ためたデータから宝を見つけ出すためだけでなく、効率的にデータを減らすためにも機械学習技術が今後さらに注目を集めるだろう。

　自分たちの環境がマイクロソフトやオラクルに染まっているのなら、データベースも彼らのクラウドサービスを選択すれば運用管理上はメリットがあるだろう。またコスト面からAWSのサービスを新たに採用するのも間違いではない。とはいえ、AWSのサービスでは思っている以上にユーザーサイドで手を動かす必要もあり、それを誰かに依頼するならば、そのコストも含め考慮する必要がある。このことは、企業情報システムに関わる技術者であれば、今後強く意識しておく必要があるだろう。

　もう一つ、企業情報システムに関わる技術者が今後クラウドデータベースを意識する際に留意しておくべき点がある。それは「多様なクラウドサービスが必要かどうか」だ。クラウドデータベースに多様な選択肢が登場している状況であるから、「IaaS、PaaS、SaaS、全てのレイヤーで、必要なサービスのみを選択するために、さまざまなクラウドを組み合わせて使いたい」と考える場合は、サービススタックが豊富にそろっているクラウドサービスを選んだ方が、データの連携や統合、管理の面でのメリットが生まれやすいことだろう。

　現状は、クラウドサービスの過渡期でもあり、今後新たなサービスも登場すれば同時に淘汰も起こるはずだ。将来的に自分たちのシステム環境がどうなっていくかを予測し、それに応えてくれるベンダーがどこかを見極めていく。単純なサービス価格や性能の比較だけでなく、長く付き合えるベンダーかどうかの見極めもいるだろう。とはいえ、クラウドのサービスなのでチャレンジして失敗しても、移行などはこれまでよりは難しくないはずだ。