続いて、「ホートンワークス」の動きを確認しましょう。ホートンワークスは、「Hortonworks Data Platform(以下、HDP)」と呼ばれるApache Hadoopのディストリビューターとして知られています。HDPはコミュニティー版のHadoopに近く、あまり独自性を出さないことをポイントにしているようです。
Hadoopはよくデータベース製品と同列に並べて語られますが、厳密にはデータベースではなく、分散処理技術であることは皆さんもご存じと思います。とはいえ近年では、データベース管理者が慣れたSQLコマンドで扱えるように「SQL on Hadoop」と呼ばれる、SQLコマンドでHadoopへアクセスする手段も登場しています。このため、実質的にはデータベースに近い存在と考えてよいとも思います。少なくとも、「データを大量に蓄積するための主要プラットフォーム」という位置付けとなるでしょう。
さて、ホートンワークスといえばHDPでしたが、それだけではなくなりました。2015年8月、ホートンワークスは「Apache NiFi(以下、NiFi)」を手掛けていたOnyaraを買収しました。2016年8月現在、NiFiと「Kafka(メッセージ処理)」など複数の技術を合わせて「Hortonworks DataFlow(以下、HDF)」として提供するようになりました。
HDFのベースとなるNiFiは、Hadoopとは異なるものです。Hadoopは「データを蓄積する」ためにあるのに対し、NiFiは「データを流す」ためにあります。
もともとNiFiは、NSA(米国国家安全保障局)が情報収集ツールとして約8年かけて開発した「Niagarafiles」がベースにあります。NSAはこれを2014年11月にApache財団に寄贈しました。NSAがオープンソースに寄贈した、初のソフトウェアでもあります。
NiFiは、「NSAの情報収集」という国家的に重要なミッションを遂行するために生まれました。情報収集と分析のために、あらゆるところからデータを収集し、分析にかけられる形へと変換し、蓄積する先へと送信する必要があります。しかし、システムログをはじめとする、各種サーバや装置が収集したデータは、それぞれフォーマットが異なります。場合によっては、データ元が同じでも、送信先ごとにデータ変換方法が異なるかもしれません。滝からとめどなく流れ落ちてくるかように大量に発生し続けるバラバラな形の「データ」を、適切な形に変換して「整理して適切に流す」ための作業やその設定を、GUI(Graphical User Interface)ツールで行えるのがNiFiです。
ホートンワークスでは、あらゆるデータ発生源から「流れてくる」データをHDFで受け、それらのデータをHDP(や、他のデータ処理先)に送ります。「流れていくデータ(Data in mortion)」と「蓄積するデータ(Data at rest)」の両方をカバーすることで、ホートンワークスはデータを包括的に扱えるプラットフォームを作り上げようとしています。これをホートンワークスでは、「Connected Data Platform」と呼んでいます。IoTの世界を明確に意識した戦略です。
実際のところ、ログデータをHDFで収集したとしても、配信先はHDPになることもあれば、前述したSplunkや他のログ分析プラットフォームになることもあるそうです。今後、IoTやセキュリティ分野で、どんなデータ管理プラットフォームが主導権を握るのでしょう。今後もウォッチしていきます。
Copyright © ITmedia, Inc. All Rights Reserved.