データハブ、データレイク、データウェアハウス:デジタルプラットフォームの整理と組み合わせGartner Insights Pickup(182)

データハブ、データレイク、データウェアハウスの違いは何か。どうすればこれらを効果的に活用できるか。これらデータ関連の企業技術を整理し、それぞれの使いどころを考える。

» 2020年11月06日 05時00分 公開
[Laurence Goasduff, Gartner]

ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナー アナリストらのブログサイト「Gartner Blog Network」から、@IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

 データハブ、データレイク、データウェアハウスはいずれも、データとアナリティクスのリーダーが複雑化、多様化、分散化が進むワークロードをサポートする上で、重要な投資分野だ。Gartnerの調査によると、データとアナリティクスのリーダーの57%がデータウェアハウスに投資しており、46%がデータハブを、39%がデータレイクを使用している。

 データとアナリティクスのリーダーは、これらの用語になじみがあり、プロバイダーから話を聞いている。だが、こうしたリーダーの多くは、それぞれの違いを理解していない。「データハブ、データレイク、データウェアハウスは、同列には扱えない」と、Gartnerのアナリストでディスティングイッシュト バイスプレジデントのテッド・フリードマン(Ted Friedman)氏は語る。

 さらにフリードマン氏は、データとアナリティクスのリーダーは、特定のビジネス要件を最適にサポートするために、これら3種類のデータ構造の目的に加え、モダンデータ管理インフラストラクチャの中で連携して果たす役割を、理解しなければならないと付け加える。

データハブ vs. データレイク vs. データウェアハウス

 データウェアハウスは、明確に把握されている構造化データを格納する。事前定義済みの反復可能な分析ニーズをサポートし、組織内の多数のユーザーに対応できるスケーラビリティを備える。「複雑なクエリが行われる」「多数の同時アクセスが発生する」「パフォーマンス要件が厳格」といった場合に適している。

 データレイクは、多様なソースシステムから未精製のデータ(ネイティブ形式のデータ。変換や品質保証は限定的)やイベントを収集する。一般的に、データ準備や探索的な分析、データサイエンスをサポートする。

 データハブは、集中管理されるデータ(広く使われる)とローカルで管理されるデータ(通常、使い捨てのデータ)の間でセマンティクスを仲介する(ガバナンスやデータ共有をサポートするために)、概念的、論理的および物理的“ハブ”を指す。データのシームレスなフローやガバナンスを実現する。

(出所:Gartner)

役割の違い

 データウェアハウスとデータレイクには共通点がある。組織の分析ニーズをサポートすることだ。これに対し、データハブは、データ分析への利用は想定されていない。詳細データの長期保存は行わない。

 データハブはデータ共有を実現し、組織のさまざまなアプリケーションやプロセス間のデータフローにガバナンスコントロールを適用する。例えば、データとアナリティクスのリーダーはデータハブを使って、ビジネスアプリケーションからデータウェアハウスやデータレイクへのデータ送信を向上させられる。

組み合わせることで最適に活用できる

 データアーキテクチャにおけるこれら3つの構造の、異なる役割を理解することは重要だが、データとアナリティクスのリーダーは、これらのアーキテクチャを組み合わせることで組織が得られる価値を認識する必要がある。

 例えば、データはデータハブを介して分析アーキテクチャ(データウェアハウス、データレイク)に送信できる。データハブはこのとき、仲介やガバナンスの要として機能する。データハブアーキテクチャを、全ての重要なビジネスデータの共有やガバナンスの要として適用する企業が増えている。例えば、こうした企業はポイントツーポイント統合を、さまざまな業務アプリケーションやプロセス間での重要なデータの同期にフォーカスしたアーキテクチャに置き換えている。

 「データウェアハウス、データレイク、データハブは三者択一の選択肢ではない。モダンデータ管理インフラは、ダイナミックでなければならない。すなわち、時間とともにアーキテクチャパターンを進化させ、新しい接続を実現するとともに、多様なユースケースをサポートする必要がある」(フリードマン氏)

出典:The Best Ways to Organize Your Data Structures(Smarter with Gartner)

筆者 Laurence Goasduff

Director, Public Relations


Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

AI for エンジニアリング
「サプライチェーン攻撃」対策
1P情シスのための脆弱性管理/対策の現実解
OSSのサプライチェーン管理、取るべきアクションとは
Microsoft & Windows最前線2024
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。