分析ポータル作成とETLツールの実践活用法:SQL Server 2005で学ぶデータ分析(5)(2/3 ページ)
ビジネスインテリジェンス(BI)の概要を解説した記事が多くのメディアで取り上げられるようになり、その基本的な理解は深まったと思われる。このような現状を踏まえ、本連載ではさらに一歩踏み込んだ内容として、データ分析の手法や注意点に焦点を絞った実践的な解説を展開する。(編集部)
ETLツールの必要性
広くデータ分析を行うためには、さまざまな形式のデータを統合して取り込む必要があります。そのために、名寄せやフォーマット変換などに代表されるデータ加工の処理を行って、分析できるデータを作成します。ETL(Extract, Transform and Loading)ツールはデータ加工処理を行うツールです。
SSISはSQL Server 2005が標準で搭載しているETLツールで、SQL ServerやOracleなどのRDBMS、テキスト形式のファイル、Excelファイルなど、いろいろなデータソースからデータを抽出して、加工処理を行い、データウェアハウスやデータマートに整合性が取れたクリアなデータを供給できます(図4)。
SSISの特徴
ETLツールを企業環境で使用するには、プログラミングの知識やSQLに精通していなくても、加工処理を簡単に作成、変更できることが大切です。SSISには次のような特徴があります。
- 強力なETL機能
さまざまなデータソースとやりとりできるプロバイダや、複雑なデータ加工に対応する変換処理が、標準オブジェクトとして多数提供されている。
データソース | Oracleデータベース、フラットファイル、Excel、XMLなど |
---|---|
処理オブジェクト | 列の値の更新、列の追加、データの分岐、マージ、集計など |
- 使いやすい開発環境
GUIの操作を中心としてVisual Studio 2005と同様のインターフェイス、機能性を持った「Business Intelligence Development Studio」(以下、BIDS)という統合開発環境が提供されている。
SSISでETL処理を実装する
SSISではデータ変換を含む一連の処理をパッケージという単位で扱います。また、パッケージは実行単位でもあります。パッケージを開発する際にはBIDSを使い、制御の流れとデータの流れを分けて定義します。定義を分けることにより、処理ロジックが分かりやすく表現できるようになっています。
なお実際には、開発環境で作成したパッケージは、本番環境に配置して、実行するというプロセスになっています(図5)。
次にSSIS機能を使用したパッケージ作成手順を説明します。パッケージを作成するには
- プロジェクトの作成
新規プロジェクトの作成または、パッケージの追加 - フローの定義
制御フロー、データフロー作成 - そのほかの定義
イベントハンドラ作成、ログ設定、チェックポイントなど
という手順を踏みます。
Copyright © ITmedia, Inc. All Rights Reserved.