データ活用の新しいかたち・後編

“参照系処理の集約”で
人の知恵を活性化する基盤を作る

サイベース株式会社
マーケティング本部
冨樫 明
2009/6/5

カラムストアデータベースとアプライアンスの比較

 アプライアンスは、前回ご紹介しましたとおり、ハードウェアとデータベースが一体となっている高性能データウェアハウス製品です。強みは、この「一体型」という点にあります。つまり、調達もサポートもシングルベンダであるという点です。また、お客様に届けられた時点で、すでにデータウェアハウスとしての製品インストールは完了していますので、電源をオンにするだけで次の作業に入ることができます。

 一般のデータベースソフトウェアであれば、サーバとストレージとソフトウェアを別々に調達し、まずインストールするところから始まります。例えばこの作業が5日間かかるとすれば、アプライアンスは1日で完了し、4日間の短縮になります。ほかの作業、例えばデータロードの仕組みを構築したり、データベースを設計・構築したり、参照系アプリケーションを開発したりといった作業を入れたすべての日数のボリュームによってこの4日間のメリットの大小が評価されることになります。さらに、そのお客様の中で使用するデータベースが厳格に決められている場合、アプライアンスをハードウェアとして導入してしまえば新しいデータベースを導入したことにはならないというように、精神的な折り合いがつきやすい、ということもあるようです。

 反対に、この「一体型」が弱点にもなります。具体的には性能の限界が“一箱の大きさに依存する”ということです。参照系システムの場合、性能はデータ量と同時アクセス数に依存します。アプライアンスは、1つ1つのモデルに、データ量と同時アクセスに対する性能(CPUの能力)それぞれについて限界が設定されますので、どちらかが限界に達した場合、拡張することになります。拡張の単位とコストが大きいのがアプライアンスの弱点です。

 拡張は上位モデルへのリプレイス、ということになれば、ここで大きな調達が発生します。最終的には性能向上の限界に達します。20同時実行、100同時実行を超えるとレスポンスが極端に劣化するといった製品もあります。

 また、多くのプロセッサを使ってデータを高速に処理するために、ストレージの中に同じデータを複数置いておくという製品もあります。プロセッサのデータアクセススピードを向上するための工夫です。当然格納データは生データの数倍になりますので、データ量の増加にも注意が必要です。

 この意味でアプライアンス運用上の最も重要なポイントは、データ量もユーザー数も、当初想定したレベルを維持し、次のモデルへの移行をできる限り先延ばしするということになります。長期的なサイジング計画が明確な場合にはよい運用ができますが、不明確な場合には想定外のコストが発生する、ということになりかねません。

カラムストアデータベースの特徴

 一方、カラムストアデータベースはデータベースソフトウェアですので、サーバ、ストレージを別に調達し、まずインストールしなければなりません。サポートもマルチベンダということになります。新しいデータベースソフトを導入することに対する抵抗もあるかもしれません。

 しかし、参照系処理が求める要件をデータベース構造で満たしているソフトウェアであるがゆえの特徴があります。

 前回、カラムストアデータベースは、データの管理方法を、汎用系データベースの参照系処理の最大の弱点である行(row)単位の管理から、カラム単位の管理に変えて高速処理を実現しているということを書きました。さらにカラムストアデータベースであるSybase IQは、カラム単位のすべてのデータをインデックスにします。これは、汎用データベースにおいて「インデックスを貼り付けてデータ量が増える」ということではなく、データそのものをインデックスにしている、ということです。

 これが何を意味するかといえば、レスポンス性能がデータ量に依存しないということです。つまり、データ量の増加に対する拡張はストレージの増加だけになり、ユーザー数の増加に対してCPUを拡張することになります。CPUの拡張は、必要な時に必要なだけ小刻みに増やしていきます。ソフトウェアなので、ハードウェアのサイズを気にする必要がありません。理論値では、120万CPU、192ペタバイトまで増やせます。汎用データベースで参照処理を行う場合と異なり、レスポンス性能はCPU数に比例して向上しますので、120万CPUが何を意味するかというと、理論値ですが1200万の同時アクセスがあっても、性能は落ちないというシステムになります(もちろんこんな規模のシステムが検証されたことはありませんが)。企業の中で使われるシステムとしては、性能限界は存在しないといえます。また、データを圧縮して格納する機能を備え、多くのシステムが「生データの量より小さなストレージサイズ」で運用されています。

図2 各種データベースの特徴(クリックで拡大します)

図3 各種データベースのコスト比較

 筆者がカラムストアデータベースを取り扱っている関係で、それが一番よく見える書き方をしてしまうことをお許しいただきたいのですが、先に挙げた全社基盤を構築するために素材として考えた場合、大量のアクセス、コンパクトなデータ格納、小刻みな拡張、大規模システムでのコストというポイントを考えれば、ソフトウェアソリューションに軍配があがるのではないでしょうか。

 ただし、ある特定の分析を行うためのデータウェアハウスを構築するための素材として比較するのであれば、別の評価になります。1つの分析としてアプライアンス製品の限界を超えるということはめったにありませんし、容量計画も比較的容易です。コストも、その時々の値引き幅に依存しますので、最後は好き嫌いということになるのかもしれません。

前のページへ 2/3 次のページへ

Index
“参照系処理の集約”で人の知恵を活性化する基盤を作る

Page 1
参照系処理にはどのような参照プロセスがあるのか
参照系専用データベースを考える
→ Page 2
カラムストアデータベースとアプライアンスの比較
カラムストアデータベースの特徴

Page 3
参照系基盤への移行の考え方
参照系基盤を選択すべき本当の意味

Databaseフォーラム全記事インデックス



Database Expert フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Database Expert 記事ランキング

本日月間