分析ポータル作成とETLツールの実践活用法SQL Server 2005で学ぶデータ分析(5)(2/3 ページ)

» 2007年04月05日 00時00分 公開
[江口陽子, 内山英樹日本ユニシス株式会社]

ETLツールの必要性

 広くデータ分析を行うためには、さまざまな形式のデータを統合して取り込む必要があります。そのために、名寄せやフォーマット変換などに代表されるデータ加工の処理を行って、分析できるデータを作成します。ETL(Extract, Transform and Loading)ツールはデータ加工処理を行うツールです。

 SSISはSQL Server 2005が標準で搭載しているETLツールで、SQL ServerやOracleなどのRDBMS、テキスト形式のファイル、Excelファイルなど、いろいろなデータソースからデータを抽出して、加工処理を行い、データウェアハウスやデータマートに整合性が取れたクリアなデータを供給できます(図4)。

図4 ETL処理の概要 図4 ETL処理の概要

SSISの特徴

 ETLツールを企業環境で使用するには、プログラミングの知識やSQLに精通していなくても、加工処理を簡単に作成、変更できることが大切です。SSISには次のような特徴があります。

  • 強力なETL機能
    さまざまなデータソースとやりとりできるプロバイダや、複雑なデータ加工に対応する変換処理が、標準オブジェクトとして多数提供されている。
データソース Oracleデータベース、フラットファイル、Excel、XMLなど
処理オブジェクト 列の値の更新、列の追加、データの分岐、マージ、集計など
  • 使いやすい開発環境
    GUIの操作を中心としてVisual Studio 2005と同様のインターフェイス、機能性を持った「Business Intelligence Development Studio」(以下、BIDS)という統合開発環境が提供されている。

SSISでETL処理を実装する

 SSISではデータ変換を含む一連の処理をパッケージという単位で扱います。また、パッケージは実行単位でもあります。パッケージを開発する際にはBIDSを使い、制御の流れとデータの流れを分けて定義します。定義を分けることにより、処理ロジックが分かりやすく表現できるようになっています。

 なお実際には、開発環境で作成したパッケージは、本番環境に配置して、実行するというプロセスになっています(図5)。

図5 パッケージを中核としたSSISの概要 図5 パッケージを中核としたSSISの概要

 次にSSIS機能を使用したパッケージ作成手順を説明します。パッケージを作成するには

  1. プロジェクトの作成
    新規プロジェクトの作成または、パッケージの追加
  2. フローの定義
    制御フロー、データフロー作成
  3. そのほかの定義
    イベントハンドラ作成、ログ設定、チェックポイントなど

という手順を踏みます。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。