検索
連載

マーケティング分析で使われるビッグデータ基盤をセキュリティ業務に応用した理由セキュリティ組織にデータ民主化を――「次世代セキュリティDWH」大解剖(1)

マーケティング分析で用いられているデータ基盤サービスを活用した、リクルートの「次世代セキュリティDWH」の構築事例を中心に、最新のセキュリティログ基盤の動向を紹介する連載。初回は、その背景やきっかけ、考え方について解説する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 リクルートのセキュリティオペレーションセンター(SOC)でセキュリティアーキテクトをしている日比野です。2019年に「セキュリティログ分析基盤活用入門」と題し、計3回の連載の中でセキュリティ業務におけるログの活用方法からセキュリティログ分析基盤のアーキテクチャ、求めるスキルセットや組織体制について具体的な内容に触れながら執筆しました。

 前回の連載から約2年がたち、クラウドサービスもさらに充実しました。新たなビジネスの創造や付加価値の向上に直結するデジタルマーケティングの領域では、特にデータ分析関連のサービス、機械学習(ML)や人工知能(AI)などの技術を中心にデータ基盤がコモディティ化され始めてきた印象があります。

 本連載は前回の続編的な位置付けとして、マーケティング分析で用いられているデータ基盤サービスを活用した「次世代セキュリティDWH(データウェアハウス)」の構築事例を中心に、最新のセキュリティログ基盤の動向を紹介します。

プロジェクトの概要

 2021年6月から2.5カ月の開発期間を経て、クラウドサービスを活用した新たなログ基盤を構築しました。筆者は勝手に「次世代セキュリティDWH」と名乗っていますが、まずはどのようなプロジェクトなのかを簡単に説明します。

なぜ、新たなログ基盤を構築したのか

 まず、本プロジェクトで構築したログ基盤はセキュリティアナリストが監視業務に利用するためのSIEM(Security Information and Event Management)ではありません。セキュリティ組織のエンジニアではない方々にも「ログ(というファクト)に基づいた意思決定を根付かせたい」という思いを形にするために、実験的に構築したシステムです。

 今回構築したシステムの対象業務は、筆者が以前分類した「ログを利用するセキュリティ業務」のうち、ハンティング業務とフォレンジック業務の中間的な位置付けです(「ロジック開発業務」と呼ぶことにします)。


セキュリティ運用における「ログ」とは(記事「セキュリティ業務における「ログ」の基礎知識――なぜ分析基盤が必要なのか」から再掲)

 ロジック開発業務ではハンティング業務やフォレンジック業務と同じく、必要なイベントをログから抽出するにはSQLやSPL(Search Processing Language)などのクエリ言語を用いて、複雑なクエリ構文を組むスキルが求められます。

 今回の取り組みではクエリ言語習得のハードルを下げ、技術者以外でも自由にログを検索したり、ダッシュボードで可視化したりすることができる環境の提供を重要な要素としました。

ログに求められる環境変化

 2020年以降のコロナ禍の影響を受け、企業の生産活動は大きく変化しています。その変化の一つとして業務を行う場所が挙げられ、テレワークに移行した企業が増えていると感じています。リクルートもそのうちの一社です。働く場所がオフィス外になることでこれまでのファイアウォールによる境界防御から新しいゼロトラストモデルによるセキュリティへの移行が必要になりました。

 ログの果たす役割も変わってきており、オンプレミス環境の機器ログ(SyslogやCSVフォーマットなど)だけではなく、クラウドサービスのAPI経由のログも必要となるケースが増えてきており、ログ環境全体の再設計が必要になってきました。

 扱うログの種類も増え、蓄積に必要なストレージの大容量化も予想されます。具体的にはAPI経由で取得するクラウドサービスのログはJSONフォーマットなので、CSVやTSVのフォーマットと比べると同じ内容のログでもフィールド名の分だけサイズが大きくなってしまいます。ストレージ圧縮が効くとはいえ、サイジングの考慮が必要です。

id timestamp ipaddress username version byte
1 2022-01-10T01:11:32 192.168.1.11 hibino 1 64
2 2022-01-10T02:12:26 192.168.2.31 hisashi 1 103
TSVの場合
{
    id: 1,
    timestamp: "2022-01-10T01:11:32",
    ipaddress: "192.168.1.11",
    username: "hibino",
    version: 1,
    byte: 64
},
{
    id: 2,
    timestamp: "2022-01-10T02:12:26",
    ipaddress: "192.168.2.31",
    username: "hisashi",
    version: 1,
    byte: 103
}
JSONの場合

 既存の監視ロジックだけでは検知に対応し切れない可能性もあります。攻撃の進化に合わせて新たなロジックをアジャイル的に迅速に開発できる環境が必要になると考え、まずは2人体制で開発をスタートしました。

ログ基盤の抱える課題とは

 これまで「Splunk」「Elastic Stack」を用いたSIEMの導入や運用改善のプロジェクトにおいて、テックリードのポジションを何度か経験しました。この2つの製品はよく比較されますが、成り立ちが大きく異なり、似て非なる製品です。それぞれに特徴があり、それぞれに強みと弱みがあると思っています。

 セキュリティのユースケースでは、どちらもログ監視による脅威検知を主目的とした利用になります。監視業務で利用するログと同じものをハンティング業務やフォレンジック業務でも利用することが多く、SIEMで複数の異なる要件のログ業務を兼ねると、結果的にコストが高くなってしまうケースがあります。

 これまでの経験を踏まえ、ログ基盤の抱える課題として、3つの観点で解説します。

  1. 運用維持コストにおける課題
  2. データ活用におけるスキル格差の課題
  3. DevOps人材確保における課題

運用維持コストにおける課題

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る