Hadoopとリレーショナルデータベースは「何」が違うのか：きょうから試せる Hadoop“スモールスタート”ガイド（1）（2/4 ページ）

実際にHadoopで処理を実装しながら「決して難しい技術ではないこと」を理解し、「誰にだって扱えること」を体感していく連載。初回は「Hadoopとリレーショナルデータベースの違い」「Hadoopのメリット／デメリット」を解説します。

[佐々木達也，著] PC用表示関連情報

LINE

Hatena

前のページへ | 次のページへ

バッチ処理

　さて、次はバッチ処理について考えてみます。

　小さなデータサイズのバッチ処理であれば扱いも手軽ですし、リレーショナルデータベースで特に困ることもなく十分だと思います。ただし、扱うデータサイズが大きくなってくると、だんだんとリレーショナルデータベースでは処理を行うのが難しくなってきます。

　こういったバッチ処理では、データをまとめて取り出したり、大量のデータをまとめて処理したりするといったことを高速に行うことが求められます。こういった要求に対しては、以下のようなことが条件として必要でしょう。

大量のデータを高速に読み出せる
処理性能がスケールする

大量のデータを高速に読み出せる

　まず、データサイズが大きくなった場合、バッチ処理を行うにしてもそもそもデータの読み込みに時間がかかるという問題があります。データの読み込みは思った以上に膨大な時間がかかってしまうものなのです。

　データの読み込みは時間がかかりますが、スケールアップもしくはスケールアウトすることで高速化できます。リレーショナルデータベースであればスケールアップすることで高速化することは可能ですが、コストがかかります。一方、Hadoopであればスケールアウトすることでコストも抑えつつ高速化することができます。今後もデータが増え続けていくであろうことを考えれば、Hadoopを使ってスケールアウトすることでどんどん読み込み性能を上げていける方が現実的な案でしょう。

処理性能がスケールする

　バッチ処理であればデータサイズがどんどん大きくなることは当然考えておいたほうが良いでしょう。最初はデータが少なくてすぐに終わっていたような処理でも、気がついたら何時間も、ひどいときには1日以上かかるような処理になってしまうことも珍しくありません。データサイズが大きくなっても困らないように、処理性能がスケールできる設計になっている必要があります。

　この場合、Hadoopはそもそも台数を増やせばスケールする前提で作られているため、特に問題はないでしょう。一方、リレーショナルデータベースも台数を増やせば処理性能はスケールするのですが、それはあくまでも細かな処理を同時に複数さばけるようになる、という意味でのスケールです。巨大なデータの処理を行おうとすると、それらを細かなタスクに分解する仕組みがないため、処理は結局のところ特定のサーバに集中してしまいます。つまり、特定のサーバの性能に依存してしまうため、スケールできているとは言えません（図2-7）（図2-8）。

図2-8　リレーショナルデータベースの処理性能はスケールしない

　このように、特定のデータをピンポイントで読み出すようなランダムアクセスにはリレーショナルデータベースが向いており、バッチ処理のような大規模データ解析ではシーケンシャルアクセスに向いているHadoopが力を発揮します。それぞれの特徴をまとめるとこのようになるでしょうか（表2-1）。

**表2-1　リレーショナルデータベースとHadoop**
	リレーショナルデータベース	Hadoop
スケール方法	スケールアップ	スケールアウト
データアクセス	ランダムアクセス	シーケンシャルアクセス
得意な処理	リアルタイム処理	バッチ処理

　次ページではそんなHadoopの特徴を詳しく見ていきます。

「Hadoopのメリット」とは？

前のページへ | 次のページへ

もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点／ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します。
Hadoopは「難しい・遅い・使えない」？越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう。
いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します
欧米の金融業界は今、どうHadoopを活用しているか
Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャーへのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観する。

Hadoopとリレーショナルデータベースは「何」が違うのか：きょうから試せる Hadoop“スモールスタート”ガイド（1）（2/4 ページ）

バッチ処理

大量のデータを高速に読み出せる

処理性能がスケールする

関連記事

総合記事ランキング