図2は、データ分析を行うための環境を示しています。ここではデータウェアハウスを記載していますが、データ分析を行ううえでは必ずしもデータウェアハウスは必須ではありません。業務データから直接データマートを作成する方法もあります。しかし、その場合はデータマートが乱立することによる保守の問題やデータマート間でのデータの不整合などの問題が懸念されます。利用の拡大を予定しているのであれば、できる限りデータウェアハウスを構築すべきです。
データウェアハウス(DWH)
データ分析を行うためには、分析の対象となるデータを整備する必要があります。分析の基となるデータはほとんどの場合、基幹業務のデータベースです。業務のデータベースは独立して構築されていることが多く、そのままでは統合して分析することができません。また、業務データベースのデータは最新の状態を保持していることから、過去何年間の傾向を見るような時系列の分析が行えません。そのために、分析専用のデータベースであるDWHを構築します。
業務データベースの更新データは、日次または週次でDWHに取り込み蓄積します。その際には名寄せやフォーマット変更など、データを統合して分析できるための加工をETL(Extract,Transform and Loading)と呼ばれるツールで行います。ETLツールは加工処理の開発生産性と品質の向上に寄与します。
データマート(DM)
DWHは全社的なデータを時系列に一元的に蓄積するため、テラバイト級のサイズになることも珍しくありません。このサイズのDWHをユーザーに開放するとパフォーマンスを保証することが難しいので、実際には部門別や目的別にデータを切り出したDMを作成します。DMを作成する理由は3つあります。1つ目はDWHへのアクセス負荷を分散させるため、2つ目はデータを絞り込むことによりユーザーの検索効率を向上させるため、そして3つ目は分析ツールに最適なデータを用意するためです。
第1回はデータ分析の基礎知識として、データ分析の変遷と分析形態および分析環境について解説しました。データ分析の変遷という意味では、BIという言葉が定着し、BIツールを含めていろいろな面で、データの利用者が自らデータを分析/活用する環境が整ってきました。また、分析の形態という観点では、利用者層に合わせた分析手法と分析ツールを選定することが重要です。また、分析環境という観点では、データ分析を行うためには、データを統合する必要があり、そのためにはDWHを構築する必要があります。
次回は多次元分析を中心に、分析手法に関して解説します。
Copyright © ITmedia, Inc. All Rights Reserved.