NoSQLデータベースが急速に普及しています。RDBの時代は終わってしまうのでしょうか。RDBは根本的な欠陥があるのでしょうか。──それは違います。本連載では、「NoSQLデータベースの今」を正しく理解し、ビジネス躍進の実現に向けて対策していくための「ベストプラクティス」を掲示していきます。初回は「今日のデータ問題」の基礎と背景を解説します。
これから数カ月にわたって、「NoSQLデータベースの今」を紹介していきます。NoSQLデータベースのさまざまな機能や長所を詳しく見ていく前に、最初は「NoSQLデータベースが生み出された理由」を、つまりNoSQLデータベースが得意とすること、そしてこれまでのデータベースでは十分ではなかった部分を確認していきましょう。
1回目となる今回は「今日のデータ問題」について。併せて、これまでのリレーショナル技術ではそれにうまく対応できない理由を取り上げます。
ここ数十年におけるテクノロジーの急激な進化の結果、ビジネスのやり方もあらゆる局面で変化しました。これまでになかった量のデータが収集されています。データの格納と管理の主流技術であるリレーショナルデータベース(以下、RDB)は、実は30年以上前とほとんど変わっていません。その当時、データは小さく、きれいで、構造化され、変化することがないと考えられました。RDBではそういうものを格納するために生まれたのです。
しかし、データはそのようなものではなく、「大量」かつ「頻繁」に生まれ、かつ「多様」で「変化」するものです。この現実に直面しなくてはなりません。
昨今のIT部門はほとんどの時間を、複雑に絡み合うデータサイロや大量のETL(抽出/変換/読み込み)管理に費やしています。このような状況を打開するために、NoSQLというデータベースが必要とされるようになりました。
ビッグデータの世界には、3つのV、「Volume(量)」「Velocity(速度)」「Variety(多様性)」の特性があるといわれています。昨今ではこれらに加えて、さらにもう2つのV、「Veracity(正確さ)」「Variability(変動性)」の重要性が高まっています。これらの「V」からも、データは「大きく」「速く」「複雑」で、「変化する」ものという1つの真実が示されています。
ビッグデータに求められる5つの「V」とその理由 | |
---|---|
Volume(量) | 今日では、以前よりも多くのシステムから、多様かつ大量なデータを扱う必要があります。これを効率的かつ安全に、少ないオーバーヘッドで管理することが求められています |
Velocity(速度) | データの作成ならびに変化のスピードも上がっています。業務要件に対応するデータへのクエリもすぐに変化します。データへのリアルタイムアクセスはもう願望ではなく、必須条件です |
Variety(多様性) | 今日のデータは以前にも増して多種多様です。全体の20%が構造化データ(トランザクショナルな表形式のデータなど)で、80%が非構造化データ(ドキュメント、テキスト、メール、画像、ビデオなど)です。おそらくは構造化データの多様性の方が問題が大きく、データサイロをまたいだ複数のスキーマの扱いは困難です |
Veracity(正確さ) | Veracityとは、データの正確さや一貫性に関する要件です。データは極めて価値が高いアセットであるために、データリネージ(経緯)や履歴(誰が何を変更したか)などの把握が重要になります。また、ユーザーのデータアクセスを細かく保護するための強力なデータガバナンスポリシーも必要です。RDBではこれをサイロ間の複雑なETL処理を踏まえたポイントツーポイント統合で行わなければなりません。これは極めて困難です |
Variability(変動性) | Variabilityとは、「コンテキストによってデータの意味が変動する」という要件のことです。またユーザーやデータモデリングの担当者によって、基本的なエンティティの記述に差異が生じます。データが増えていくにつれて、ヒト、場所、モノの記述方法のバリエーションが増え、問題が悪化してしまいます |
Copyright © ITmedia, Inc. All Rights Reserved.