データ集約型アーキテクチャとは何か　6つの設計パターンと実践的考慮事項を解説：トランザクション集約型アプリケーションとの違いも一覧化

TechTargetは「データ集約型アーキテクチャ」に関する記事を公開した。データに基づいた意思決定が注目される中で、品質の高いデータに裏付けされ、リアルタイムにビジネスの洞察をもたらすシステムの必要性が高まっている。

» 2025年05月29日 08時00分公開

[Priyank Gupta，TechTarget]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　TechTargetは2025年3月19日（米国時間）、「データ集約型アーキテクチャ」（data-intensive architectures）に関する記事を公開した。

「データ集約型アーキテクチャの主な考慮事項」（TechTarget）

　データ集約型アーキテクチャは、大量のデータを集約、管理することを目的に設計されており、膨大なデータを処理するためのシステムを構想する上で重要な役割を果たす。一方で、考慮すべき点も多い。主な検討事項には、以下がある。

データ量への対処
履歴データのアーカイブ（長期保存）
データ品質の管理
品質の問題やパターン変化（消費者行動の変化など）に起因する「データドリフト」（データの偏移）の特定
コスト効率の高い、ビジネスに関する洞察（ビジネスインサイト）の生成

　膨大なデータの処理はコストが高くなりがちだが、必ずしも全てのデータが価値を生むとは限らない。コストと投資利益率（ROI）のバランスを取りながら、価値をもたらすアーキテクチャを設計、管理するためのデータ集約パターンを見つけることが重要だ。

　本稿では「トランザクション集約型アーキテクチャ」（transaction-intensive architectures）との違いと、以下の6つのデータ集約型アーキテクチャパターンについて解説する。

・コマンドクエリ責任分離
 ・データメッシュ
 ・データボールト
 ・Kappaアーキテクチャ
 ・Lambdaアーキテクチャ
 ・メダリオンアーキテクチャ

データ集約型とトランザクション集約型の違い

　データ集約型アーキテクチャとトランザクション集約型アーキテクチャの違いは、目的、設計原則、運用目標にある。次の表に両アーキテクチャの主な違いを示す。

データ集約型アーキテクチャとトランザクション集約型アーキテクチャの違い
	データ集約型アーキテクチャ	トランザクション集約型アーキテクチャ
主な課題	・効率の高いデータ保管・並列処理・大規模データの分析・インサイトを提供しつつ、コストとスケーラビリティを管理する	・リアルタイム運用のための並行実行性の管理・負荷が高い環境でのデータの一貫性と低レイテンシの確保・厳密なACID準拠の維持
主な目的	大規模データセットからインサイトを抽出し、戦略的意思決定や長期的な分析を支援	リアルタイムのトランザクション処理ワークロードを支援し、シームレスなユーザー体験を提供
代表的なコンポーネント	・分散ストレージシステム・データ処理フレームワーク・データレイクとデータウェアハウス・Web API ・データファイル／ストア・ETL／ELT（抽出、変換、格納／抽出、格納、変換）パイプライン	・リレーショナルデータベース・アプリケーションサーバ・ロードバランサー・キャッシュ層・ユーザー操作用API
レイテンシ許容度	レイテンシの許容度は比較的高く、数秒から数時間を要するバッチ処理システムでは特に許容度が高い	レイテンシ許容度は極めて低く、数ミリ秒程度の遅延がユーザーエクスペリエンスに直接影響する可能性がある
時間の重要度	リアルタイムストリーミングから数時間単位のバッチ処理まで、さまざまな時間軸で動作	ユーザー操作に即時フィードバックを繰り返すリアルタイム処理が前提
クエリの複雑度	結合、集計、機械学習との統合などを必要とする複雑な分析が多い	トランザクションの一貫性を確保するため、事前定義済みのシンプルなクエリが中心
ストレージの方針	・読み取りと処理のパフォーマンスを最適化するため、非正規化ストレージまたは分散型ストレージを使用・データを地理的に複製、パーティショニング	・一貫性と冗長性の確保のため正規化データベースを使用パーティショニングとシャーディングを活用して同時書き込みに対応
セキュリティ	匿名化、暗号化、ガバナンス、トークナイゼーションに関するコンプライアンス要件が中心	認証、認可、監査、トークナイゼーションを中心とするコンプライアンス要件
ワークロードの種類	アドホッククエリ、バッチ処理、「MapReduceアルゴリズム」や「集約アルゴリズム」を利用するリアルタイム分析など、複雑で多種多様なワークロードをサポート	CRUD操作など、短時間で反復の多い予測可能なワークロードを主としてサポート
ROIの測定	インサイト1件当たりのコストを重視。データ処理コストが、得られる価値を上回らないことが重要	・効率良いユーザー操作が収益に直結・応答時間の短さやトランザクションの信頼性がユーザー離脱を防ぐ・効率的なリソース利用によって運用コストを削減
評価指標	・GB／TB当たりの保存コスト・インサイトを得るまでの待機時間・データの品質・クエリパフォーマンス・インサイトによるとビジネスへの影響	・トランザクションの待機時間・スループット（1秒当たりのトランザクション数）・可用性または稼働率
システムの例	・予測分析・不正検知・ビジネスインテリジェンス（BI）・データに基づく意思決定	・eコマースの注文処理・銀行取引・チケット予約システム

データ集約型アーキテクチャの6つのパターン

　データ集約型アーキテクチャのパターンを確立させれば、大規模システムにおける多様なデータの収集と処理の課題に対処できるようになる。データ集約型アーキテクチャパターンを検討する場合、各種制約（処理コスト、ストレージコスト、インサイトを得るまでの時間など）がプラットフォーム全体のROIに大きく影響する可能性がある。

　効率的なデータ集約型アーキテクチャは、不要な支出を抑えると同時に、データの価値を最大化する。ただし、アーキテクチャを検討する際には、データの指標自体にとらわれるのではなく、そのインフラによってビジネス目標やROIがどのように支えられるかに注目することが重要だ。

　ここからは、アーキテクチャのパターンを幾つか紹介し、それぞれの効率、柔軟性、リソース使用を比較する。なお、取り上げるのはアルファベット順で、優劣ではない点に注意してほしい。

コマンドクエリ責任分離（CQRS）

　コマンドクエリ責任分離パターンでは、読み取り操作（クエリ）と書き込み操作（コマンド）に対して、それぞれ異なるデータモデルを使う。その結果、読み取りと書き込みの負荷に偏りがあるシステムにおいて、スケーラビリティとデータ管理能力が向上する可能性がある。ただし、このパターンは結果整合性（eventual consistency）に依存する。読み取り専用または書き込み専用の目的でデータモデルを構築する場合、各モデル間で非同期的なデータフローを維持することが不可欠だ。

》トップへ戻る

データメッシュ（Data Mesh）

　データメッシュパターンは、データガバナンス（統制）、データ探索、データの来歴（リネージ）、データの再利用に関する課題を解決することを目的にしている。データメッシュでは、データプラットフォームの構成要素を分離し、組織全体においてデータを個別のプロダクト（製品）として利用可能な形にする。

　データはデータ管理部門が集中管理するのではなく、管理部門内の各運用グループにデータの所有権が分散され、データを扱う際の取り決めを各グループが管理する。こうした取り決めはドメイン全体でガバナンス、データの来歴、データ探索の一貫性を確保するのに役立つ。

　データメッシュを使うことで、自律的な部門に分かれた大規模組織において、単一のデータレイクでは対応しきれないほどの大規模かつ断片的なデータを効率的にスケーリングし、対処できる。

》トップへ戻る

データボールト（Data Vault）

　データメッシュとは対照的に、データボールトパターンはデータウェアハウス（DWH）の設計とストレージの一元化を目的とした手法だ。このアーキテクチャでは、データとビジネスインサイトのストレージ層が分離され、プレゼンテーション層が設けられている。データボールトには、次の3つの主要コンポーネントがある。

ハブ（Hubs）：一意のビジネスエンティティ
リンク（Links）：ハブ間の関係性を示す接続要素
サテライト（Satellites）：ハブまたはリンクに関連するメタデータやコンテキスト属性

　データボールトパターンは比較的よく使われる設計パターンの一つだ。ただし、用途に応じたデータの再加工や繰り返しの付加処理が多くなると、システム全体が膨張し、管理や進化が困難になるリスクもある。

》トップへ戻る

Kappaアーキテクチャ（Kappa Architecture）

　Kappaアーキテクチャパターンは、データを連続するイベントストリームとして扱い、「Apache Kafka」や「Apache Flink」のようなツールを使って、リアルタイムに近い形でデータ駆動型のインサイトを得るための処理パイプラインを構築する。

　このアーキテクチャでは、イベントは再実行（リプレイ）可能であり、必要に応じて再度処理することができる。このため、リアルタイムなインサイトがビジネス運用にとって極めて重要な環境、例えばアプリベースのライドシェア（配車サービス）などに適している。

》トップへ戻る

Lambdaアーキテクチャ（Lambda Architecture）

　Lambdaアーキテクチャパターンでは、一般的にデータが次の3つのレイヤーで処理される。

バッチレイヤー：履歴データの処理を担う
スピードレイヤー：リアルタイムデータの処理を担当
サービングレイヤー：バッチ処理とストリーム処理の結果を統合し、提供する

　サービングレイヤーは、現在データと利用可能なデータを全ての統一ビューを提供し、アドホッククエリと体系的なインサイトの取得を可能にする。本稿で取り上げた他のパターンに比べてLambdaアーキテクチャは一般的にコストが高く複雑になるが、不正検出など、リアルタイムデータ分析と履歴データ分析の組み合わせを必要とするアプリケーションには実用的な選択肢となる。

》トップへ戻る

メダリオンアーキテクチャ（Medallion Architecture）

　メダリオンアーキテクチャパターンは、他のデータ処理アーキテクチャを補完する形で利用できるパターンだ。データを個別のレイヤーに分割、整理し、各レイヤーを通過する中でデータの品質とデータの全体構造を調整、改善する。

　一般的に「ブロンズ」（ランディングゾーン）、「シルバー」（処理ゾーン）、「ゴールド」（集約ゾーン）に分割される。このパターンは、ストリーミングアーキテクチャやバッチ処理に適用であり、パイプライン全体におけるデータの管理性、再利用性を向上させる設計手法として広く活用されている。

データはどうやって保存されているのか？――基本的な仕組みを理解するための「ファイルストレージ」超入門
これまであまり物理的なサーバとストレージに触れてこなかった方を対象に、AWSを用いてサーバとストレージの基礎知識を解説する連載。第5回は、AWSの活用に欠かせない「ファイルストレージ」を詳しく解説します。
徹底比較：「分散トレーシングはAPMの主要機能」という勘違いはなぜ生まれる？
TechTargetは2025年3月18日、「アプリケーションパフォーマンス監視と分散トレーシングの違い」に関する記事を公開した。アプリケーションパフォーマンス監視と分散トレーシングはそれぞれ異なるが、互いに補完する形で、パフォーマンス問題を特定するのに役立つ。
自動運転やエッジAIで活用されている「エッジコンピューティング」の仕組みや課題をおおまかに把握しよう
IT用語の基礎の基礎を、初学者や非エンジニアにも分かりやすく解説する本連載、第25回は「エッジコンピューティング」です。ITエンジニアの学習、エンジニアと協業する業務部門の仲間や経営層への解説にご活用ください。