「Splunk」はデータを蓄積し、分析し、可視化するためのソフトウェアです。しかし、データベースではありません。システム運用のためのログの収集や検索、可視化を目的に開発されました。
例えばデータセンターでは、さまざまなサーバやネットワーク機器がひしめくように稼働しています。ここで生成される膨大なログは、どれもテキスト形式という点では共通しているものの、フォーマットはばらばらです。「構造化されていない」データですね。Splunkは、「これらの多様なログを、まとめて横断的に検索できること」を強みに発展してきました。
2016年6月30日、Splunkが開催したイベント「SplunkLive! Tokyo」で興味深い話がありました。Splunkはシステム運用監視を想定した製品と前述しましたが、あるユーザーが、「Splunkは、セキュリティの問題を解決するためにも有効ですよね」と指摘したことをきっかけに、セキュリティ対策機能を強化するようになったそうです。
ここでのセキュリティ対策とは、「標的型攻撃の検知」や「内部不正アクセスの追跡」などです。つまりSplunkは、ログを一元管理してリアルタイムな脅威の検知に用いる、「SIEM(Security Information and Event Management)」ツールとしても機能します。SIEMツールとして“も”というより、Splunkは、既に米ガートナーが公表するマジッククアドラントのSIEM部門でリーダーの地位にあります。
(参考記事)「SIEM」はどうすれば使いこなせるのか?
このように、Splunkはセキュリティ対策としての機能の躍進が期待される一方で、データベースウォッチャーとしては、ここでの「データの処理方法」が気になりました。データベースではないのに、どのようにデータを処理しているのか、ということです。
Splunkは、自身の特徴として「非構造化データに対する、破壊的アプローチ」を挙げています。RDBMSならば、事前に定められたテーブル定義などに合わせてデータを読み込み、蓄積していきます。一方のSplunkは、データ構造はあまり考えずにテキストのログをひたすら読み込みます。例えば、区切り文字などを目安にして、データをインデックス化していきます。
このように、構造化されていないテキストデータを効率的に取り込み、横断して検索できるのがSplunkの技術的な核です。筆者の印象では「全文検索のすごいやつ」で、RDBMSとはかなり異なるアプローチであることが興味をそそられます。
Copyright © ITmedia, Inc. All Rights Reserved.