DWHで多数の実績を持つNetezzaのコアを受け次ぐPureData for Analytics。周辺ツールとの連携を含めて取材した。
かつてはデータウェアハウス(DWH)のアプライアンス製品「Netezza」、今では「IBM PureData System for Analytics」。その技術はIBM DB2のBLUアクセラレーションにも採用されています。これまで何度かNetezzaに由来する話題を取り上げてきているものの、ハードウェアとデータベースの話が中心でした。今月は最新の分析機能についてです。
IBM PureSystemsファミリの中で、データベースプラットフォームに位置付けられるのがPureData Systemです。「Netezza」はこの製品体系に組み込まれ、「PureData System for Analytics(以下「for Analytics」)」となりました。製品名からは「Netezza」の文字は消えたものの、Netezzaに由来する技術は今でも「Netezza」と呼ばれることが多いようです。なお、2013年10月にはHadoopに対応した「PureData System for Hadoop」もPureData Systemに加わっています。
Netezza改め「for Analytics」は、もともとデータウェアハウス(DWH)の専用機として開発された製品です。汎用(はんよう)的なデータベース製品をデータウェアハウス用途にチューニングしたものとは根本的に違います。
技術的な特徴は主に、FPGAの論理回路を使ったデータのストリーミング処理、超並列処理、クエリのコンパイル実行、ZoneMap(データベースのインデックスに近い)などがあり、高速な処理を実現しています。また、チューニングや保守が最小限で済むため運用もシンプル……というのがこれまでの話でした。
今回は最新の分析機能について、日本IBM ソフトウェア事業 インフォメーション・マネジメント事業部 BigData/Netezza Analytics Specialist 小島繁樹氏(写真)に話を聞きました。
近年ビジネスデータ分析は「結果」を可視化するリポーティングから、マイニングや「予測」へと向かっており、ますます高度化しています。過去のデータから未知のパターンを予測・発見して不正アクセスを検知したり、あるいは、最適な仕入れ計画を組み立てたり将来の販売数量を予測することも要求されています。また、顧客行動の履歴から属性ごとのクラスタリング(グループ分け)を行うことも考えられます。こうした分析の場合、標準的なSQLやリポーティングの手法では表現し切れないものも少なくありません。
このような高度な分析には「SPSS」や「SAS」といった分析ツールや、RやPythonなどのプログラミング言語が使われています。
ただし、データをDBから処理するDWHに移動するとなると厄介です。分析となると扱うデータ量は膨大であるためです。そこで近年ではいわゆる「In-Database分析」――データベース内部に分析ロジックを組み込むことでデータの移動をなくし、分析の処理時間を短縮する技術が注目されています。
この処理実装は「for Analytics」にも搭載されています。近年「for Analytics」は「とにかく速い」だけでなく、高度な分析機能を充実させています。今回は「for Analytics」のIn-Database分析、および標準的な分析ツールとの連携機能に着目してみましょう。
「for Analytics」の分析機能に関するアーキテクチャは下図のとおりです。Netezza DBエンジンの上に分析エンジン、ユーザー定義機能開発環境、In-Database分析関数群があります。
Copyright © ITmedia, Inc. All Rights Reserved.