Tableau 10とセルフサービスBIの進化：ビジネスアナリティクス、ビッグデータの文脈（2）

米国時間の2016年8月15日、「Tableau 10」がリリースされた。この新バージョンを一部機能に限定して、セルフサービスBI製品の進化という観点から解説する。

» 2016年08月17日 05時00分公開

　セルフサービスBIでマーケットリーダー的な存在といえるTableauで、2016年8月15日に新バージョンの「Tableau 10」がリリースされた。

　Tabelau 10の新機能に関しては、ベータ版の段階から、Tableau Software自身が正式に情報を提供している。だが、新バージョンでは細かな新機能が多数あり、「結局のところ、どれが重要な機能強化ポイントなのか分かりにくい」と感じる人は多いはずだ。

　特に、「Tableauユーザーではないが、セルフサービスBIツールの世界で何が起こっているのかを知りたい」という人にとっては、Tableau 10における新機能の説明を読んでも「何が何だかチンプンカンプン」だろう。そこで本記事では、Tableau 10およびTableau Softwareの戦略を、「セルフサービスBIツールの進化」という観点から、文脈付きで解説する。

　本記事では、トピックをデータ準備と多様なデータソースへの接続に限定する。セルフサービスBIはいろいろな説明ができるが、「現場のユーザーが、情報システム部などを煩わすことなく、自らの業務目的に基づいて機動的に分析を実行できるほど価値がある」と表現できる。情報システム部などへの依存を減らすという点で、「データ準備」「多様なデータソースへの接続」は、セルフサービスBIで欠かすことができないからだ。

　Tableau 10では他にも魅力的な機能があるが、これらについてはTableau Softwareなどが提供する情報をご覧いただきたい。

データ準備作業の一部をユーザー側で行える、新たなデータ仮想化機能

　セルフサービスBIでは、「複数のデータを1つにまとめる」、あるいは「あたかも単一のデータであるかのように扱う」作業が求められる場面がある。これを「広義のデータ仮想化」と呼ぶこともできる。Tableau 10で最も重要な新機能とされる「クロスデータベースジョイン（Cross Database Join）」は、この広義のデータ仮想化について、新たな選択肢を追加するものだ。

　この新機能は、データ準備について情報システム部などが負担している作業を、場合によっては不要とし、セルフサービスBIのプロセスを、より機動的で柔軟にすることを目的としている。

　クロスデータベースジョインは、複数データソースのテーブルを結合し、単一のデータであるかのように扱う。

　これにより、データ準備における情報システム部などへの依存を減らすことができる。従来は、例えば複数のデータベースに分散している情報を統合して分析したい場合、必要な情報をまとめた単一のデータベースやスプレッドシートを作ってくれるよう、情報システム部などに依頼して待たなければならなかった。

　クロスデータベースジョインにより、データ準備の作業を、ユーザー自身が積極的に肩代わりできるようになる。分析するデータ項目を頻繁に変更する場合でも、従来のように、その都度情報システム部への依頼を行う必要はない。結果として、より機動的で柔軟なデータ分析ができることになる。

　こうした機能は、セルフサービスBIのメリットを大きく高めるものとして、期待できる。

Tableau 10の目玉機能とされるクロスデータベースジョインでは、複数のテーブルを、少ないステップでユーザー自身が結合できる

　補足的に説明すると、Tableauにおける広義のデータ仮想化は、クロスデータベースジョインが初めてではない。これまで下記のような選択肢が提供されてきた。

「ユニオン（Union）」：複数のファイルとして存在する同一形式のデータを、単一のデータソースにまとめる機能。Tableauでは、例えば販売実績データが、四半期ごとに別個のExcelスプレッドシートとなっている場合、これをまとめ上げて１つのデータソースとして扱い、トレンド分析などができる例を紹介している。
「ジョイン（Join）」：同一のデータソースからの複数データを結合して、単一のデータであるかのように扱う機能。
「データブレンディング（Data Blending）」：複数のデータソースのデータをマッピングし、単一のデータであるかのように扱う。

　上記のうちジョインは、同一のデータソースでなければならないという制限があり、今回のクロスデータベースジョインで、これから解放されることになった。

　また、データブレンディングは、複数のデータソースからのデータをまとめて扱えるようにするという点で、クロスデータベースジョインに似ている。だが、データブレンディングは、基本的には一次データソースに対して一時的に他のデータソースのデータを関連付けて扱うことを目的としていた。このため、複雑なデータ構成に対応できず、インタラクティブ性、メンテナンス性に欠ける部分があるとされる。

　今回のクロスデータベースジョインで、初めて「本格的な」データ準備作業を、ユーザー側で実施できるようになったといえる。

多様なデータソースへの高速な接続

　全てのセルフサービスBIツール／サービスは、各種データソースへの対応を進めている。Tableauは一時、対応データソースの多様さで他を引き離していたが、競合製品が急速に接続性を強化してきたことで、その差は縮まってきている。

　Tableau 10では、グーグルの表計算ソフトウェアサービス「Google Sheets」、マーケティングオートメーションの「Marketo」、会計クラウドの「QuickBooks Online」、インメモリデータベースの「MemSQL」などとの直接接続が可能になった。また、Oracle Databaseについては表関数を活用できるようになった。

　一方、Tableau SoftwareはTableau 9.1より、「Web Data Connector SDK」というソフトウェア開発キットを提供している。これを使い、ユーザーなどが任意のデータソースをTableauと接続するコネクタを開発できる（Tableau Softwareによるサポートの対象外）。開発されたコネクタの一部は、GitHubで共有されている。リストされているものとしては、例えばAWS CloudWatch、Elastic Search、GitHubのコネクタがある。

　なお、BIの世界では、「ETLツール」や「コネクタ」と呼ばれるサードパーティ製品が存在する。「これらを使うことで、直接サポートされていないデータソースも活用できるではないか」という言い方はできる。現に、MarketoをTableauと接続するソリューションは、これまでも複数存在している。

　だが、セルフサービスBIという製品の性格上、サードパーティ製品を別途導入したり、設定したりすることなく、できるだけ少ないステップでデータから知見を得られるようにしたい。このため、できるだけ多くのデータソースと直接接続できることが望ましい。

ビッグデータへの高速なアクセスがますます求められる

　多様なデータソースに接続できても、高速・軽快なデータ活用ができなければ魅力が半減してしまう。クラウドベースのBIソリューションでは、この部分はブラックボックスとして対応することも可能だが、Tableau Softwareのようにオンプレミスで動作する製品を主力としている場合、具体的な対策が求められる。

　Tableauでは、これまでライブ接続している複数データソースへのクエリを並列化する、CPUのベクトル命令セットの活用などによる、同ソフトウェア自体の高速化を図ってきた。一方でMemSQLやPrestoのような、高速インメモリデータベース／クエリエンジンのサポートも進めている。

　調査会社のガートナーは、BIの世界が、今後これまでの「データディスカバリ」（ガートナーはセルフサービスBIを「データディスカバリ」と呼んでいる）から「ビッグデータディスカバリ」へ移行していくだろうとしている。つまり、大量の非構造化データから知見を得ることが、今後何にも増して重要になるだろうとしている。

　Tableau Softwareは2016年2月、ドイツのHyPerという企業を買収した。HyPerは、従来と異なるアーキテクチャによるインメモリデータ管理を特徴とする高速データベースエンジン。これによって、構造化データ、非構造化データの双方を対象とし、データの統合や変換、ブレンディングなどを高速に実行できるようになるという。この買収は、ビッグデータディスカバリ時代の到来への、Tableau Softwareの回答の1つになるようだ。

　だが、製品は初期段階にあると見られ、その技術がTableau製品群に、どう生かされていくのかは未知数だ。

　ガートナーが指摘しているように、今後多くの企業が、ビッグデータ／IoTを対象としたセルフサービスBIを進めるようになってくる。すると、大量データの高速処理、およびこれに関係して非構造化データのETLプロセスが注目されるようになってくる。Tableau Softwareだけでなく、BIツール／サービスを提供する全てのベンダーが、自社製品あるいは他社との連携で、これに関連する取り組みを強化するものと考えられる。