広くデータ分析を行うためには、さまざまな形式のデータを統合して取り込む必要があります。そのために、名寄せやフォーマット変換などに代表されるデータ加工の処理を行って、分析できるデータを作成します。ETL(Extract, Transform and Loading)ツールはデータ加工処理を行うツールです。
SSISはSQL Server 2005が標準で搭載しているETLツールで、SQL ServerやOracleなどのRDBMS、テキスト形式のファイル、Excelファイルなど、いろいろなデータソースからデータを抽出して、加工処理を行い、データウェアハウスやデータマートに整合性が取れたクリアなデータを供給できます(図4)。
ETLツールを企業環境で使用するには、プログラミングの知識やSQLに精通していなくても、加工処理を簡単に作成、変更できることが大切です。SSISには次のような特徴があります。
データソース | Oracleデータベース、フラットファイル、Excel、XMLなど |
---|---|
処理オブジェクト | 列の値の更新、列の追加、データの分岐、マージ、集計など |
SSISではデータ変換を含む一連の処理をパッケージという単位で扱います。また、パッケージは実行単位でもあります。パッケージを開発する際にはBIDSを使い、制御の流れとデータの流れを分けて定義します。定義を分けることにより、処理ロジックが分かりやすく表現できるようになっています。
なお実際には、開発環境で作成したパッケージは、本番環境に配置して、実行するというプロセスになっています(図5)。
次にSSIS機能を使用したパッケージ作成手順を説明します。パッケージを作成するには
という手順を踏みます。
Copyright © ITmedia, Inc. All Rights Reserved.