Loading
|
@IT > ETLツール、OLAPの最新テクノロジー |
オラクルが提供するETLツール“Oracle Warehouse Builder”は、一般的なETLツールの機能であるデータの流し込みを担当するツールにとどまらず、データ・ウェアハウスの設計、構築のための機能を豊富に揃えている。ここでは、そうした機能の数々を紹介する。
ウェアハウス・グリッドといった大規模な環境を構築し、運用するためには、ツールにも高度な機能と使いやすいインターフェイスが望まれる。Oracle Database 10g Release 2では、BIやデータ・ウェアハウスに利用可能なさまざまな機能拡張が施されていることから、構築/運用管理ツールがこうした機能に対応し、使いやすいインターフェイスを提供してくれないと、せっかくの機能もその真価を引き出すことが難しくなってしまう。 “Oracle Warehouse Builder”は、Oracle Database 10g Release 2の機能を生かしたBI/データ・ウェアハウスの構築支援ツールだ。これは同時に、次世代のBIを実現するための新しいコンセプトを盛り込んで設計されており、企業全体で統合されたデータ・ウェアハウスの構築を単なる将来目標ではなく、現実のシステムとして実装する上で大きな役割を担う。 データ・ウェアハウスのための周辺ツールとしてまず思い浮かぶのがETLツールだ。ETLとは、Extraction(抽出)、Transformation(変換・統合)、Loading(ロード)の頭文字を取ったもので、元となるデータソースから必要なデータを“抽出”し、必要な“変換”を行なった上でデータ・ウェアハウスに“ロード”するためのツールだ。データ・ウェアハウスに格納する情報を更新するたびに使われる基本的なツールであることから、データ量が膨大になり、かつ更新間隔をより短くしていきたいという昨今のデータ・ウェアハウスに対する要求に応えるためにもETLツールの機能や性能が重要なポイントとなる。 オラクルが提供する“Oracle Warehouse Builder”は、単に「データの流し込み」を担当するツールにとどまらず、むしろデータ・ウェアハウスの設計、構築のための機能を豊富に揃えている。
Oracle Warehouse Builderには、「ETL処理の定義機能」(ソース・データ定義、ターゲットDBオブジェクトのインポート、ソース/ターゲット間でのデータ移動/変換の定義、ETLプロセス間の依存性割り当て)、「管理機能」(ソース定義の管理と更新、ターゲットDBオブジェクトの配布/更新/管理)、「設計機能」(ターゲットDBオブジェクトの設計/作成、非定型問合せツール環境の設計/作成、OLAP環境の設計/作成)といった機能があるが、重要なポイントは、データ・ウェアハウスの定義や設計に関する情報をメタデータとして保存し、管理できる点だ。この機能によって、データ・ウェアハウスの運用や管理を効率化し、高い抽象レベルで取り扱うことが可能になる。 従来のアプローチによるETL処理では、ソース・データのどの部分を使ってどのような分析に備えるのか、という上位の部分と、データ形式の変換といった下位の処理とが混在してしまいがちだ。もちろん、優秀な開発者が取り組めばこうした処理を迅速に定義し、運用することもできるかもしれないが、経営環境の変化が激しい現状で企業全体の意思決定の精密化に寄与するデータ・ウェアハウスを構築するとなると、データ・ウェアハウスの構造自体も状況の変化に即応して迅速かつ柔軟に変化させていく必要があるだろう。変更作業を効率よく実施するためには、やはり処理の流れを論理的な視点で整理し、抽象度を高める工夫が不可欠となる。メタデータを活用したOracle Warehouse Builderのアプローチは、単に日常の運用作業の効率化に役立つだけでなく、全社規模の統合されたデータ・ウェアハウスを構築するという大きな目標を現実化するためには欠かせない機能となる。 さらに、メタデータを解析することで、データ・ウェアハウスの構造自体を分析対象としてより精緻な判断ができるようになる点も興味深いところだ。例えば、「系統分析」の機能を使うと、データ・ウェアハウスの特定のデータ項目がどのデータソースから作成するかを確認できる。どれだけのソース・データを踏まえているかを確認でき、重要なデータを組み込み忘れると言ったミスを防ぐことにも役立ち、より精度の高い最終レポートを生成するためにも有用な機能だ。逆に、あるデータソースがどのデータ項目に影響を与えているかを確認する「影響分析」機能もある。これは、データソースの変更の影響がデータ・ウェアハウスのどの部分に波及するかを把握する上で役立ち、データ・ウェアハウスの保守の手間を低減することに役立つ。 さらに、新たな分析アプリケーションが必要となった際にも、メタデータを利用して抽象度の高いインターフェイスで容易にアプリケーションを構築することができることも大きなメリットとなる。変化の激しい現在では、いつまでも同じ視点での分析を繰り返すだけで事足りるというわけではなく、ちょっと視点を変えて分析してみることで新たな知見を得ることも重要になってくる。そのための開発負担が重く、開発期間も長くかかるようだと簡単に試すことはできないことになるが、Oracle Warehouse Builderを利用すれば機敏な対応が実現する。
Oracle Database 10g Release 2とOracle Warehouse Builderの組み合わせで構築するデータ・ウェアハウスの大きな特徴として、データの流れが一般的なE、T、Lという順序とは異なるものになる、という点も挙げられる。オラクルではこれを“E-LT”と呼んでいる。これは、データ・ウェアハウスがOracle Database 10g Release 2上に構築されると同時に、Oracle Warehouse BuilderもOracle Database 10g Release 2をプラットフォームとしてDB上で動作するためだ。
ETLツールには、専用サーバを用意して実行するタイプのETLツールとは異なる特徴がある。開発効率の点から言えば、ETL処理ロジックがデータベースの標準開発言語であるSQLやJavaで記述できることになり、専用言語を習得する必要がないため、学習障壁が下がる。また、チューニングやトラブルシューティングにもDBの経験がそのまま活かせるため、運用管理の負担軽減にも繋がる。 データベース上でETL処理が実行されることのもう1つの利点は、データベースのリソースをそのままETL処理に流用できる点だ。専用サーバを用意する場合は、ETLサーバに関してもピーク負荷に応じたリソースの確保が必要となり、遊休リソースが増えてしまうことになるが、データベースのリソースを利用することで、データベースの処理負荷が軽いタイミングを選んでETL処理を実行するように設定することで、事実上追加リソースなしでETL処理を実行できる可能性もある。また、グリッド対応や高度なセキュリティなど、データベース・インフラが持つ高度な機能を活用できる点もメリットとなるだろう。運用管理者の視点で言えば、データベース管理の枠組みの中ですべてが完結し、ETLサーバのためのサーバ管理の負担が増えることがないため、人的コストの削減も実現する。 全社統合の大規模なウェアハウス・グリッドの構築を考えた場合、データ量が増えるに伴ってETL処理の負担も増大することになる。専用サーバ型のアプローチでは、データ・ウェアハウスの規模に見合ったETLサーバの処理能力の確保が必要になるが、データベース内蔵型のアプローチでは、ウェアハウス・グリッドのために確保したコンピューティング・リソースがそのままETL処理のためのリソースとしても利用可能ということになる。データ・ウェアハウスの規模が拡大すると、同時にETL処理のキャパシティも比例して増大すると考えてもよいだろう。規模が大きくなればなるほど、遊休リソース削減の効果も大きなものとなる。
最後に、高度なインテリジェンスを導くための機能として、分析機能の強化も不可欠となる。代表的な手法として、OLAPなどの多次元分析がある。従来は、OLAPを利用するためには専用の多次元データベースを利用する(MOLAP)か、あるいはリレーショナル・データベースを流用するか(ROLAP)の2つのアプローチのどちらかが選択されたが、どちらも一長一短があった。しかし、Oracle Database 10g Release 2は「MOLAPとROLAPを統合した真のハイブリッドOLAP」を標榜しており、両方の長所を享受でき、しかもシンプルな構成を維持することで運用管理負担も低減できるというものになっている。
データ・ウェアハウスと統合されたOLAP機能で高度な分析を実行したいという場合でも、システムの数が増えてしまうといった問題は生じることなく、すべてをデータベース上で、という基本的なアーキテクチャが一貫しているメリットがここにも表われているといえるだろう。 また、データ・マイニングのためには“Oracle Data Mining”が用意されている。データベースに格納されたデータをそのまま分析に利用することができるため、データを抽出したり、移動/コピーする負荷が完全に排除でき、効率よく分析を実行できる。ユーザー事例での計測では、外部プログラムへのデータ移動を排除したことによるコスト削減効果は75%以上に及んでいる例もあるという。 オラクルのデータ・ウェアハウス・システムでは、すべてをデータベース上に構築した上で、データベース自体が備えるグリッド対応などの拡張性を活かし、低コストで大規模な拡張を可能にしている。このことは、ウェアハウス・グリッドのような全社統合のデータ・ウェアハウスを実現する上では欠くことのできない重要な要素であり、インフラから周辺ツールまで、全領域で足並みを揃えた環境整備が行なわれていることが、ウェアハウス・グリッドを単なる将来目標ではなく現実に利用可能なものとしているのである。 提供:日本オラクル株式会社 企画:アイティメディア 営業局 制作:@IT編集部 掲載内容有効期限:2007年5月31日 |
|