ETL、BIサービスを組み込むセキュリティログ分析基盤の設計方針、サーバレスとフルマネージドがもたらす効果とはセキュリティ組織にデータ民主化を――「次世代セキュリティDWH」大解剖(2)

マーケティング分析で用いられているデータ基盤サービスを活用した、リクルートの「次世代セキュリティDWH」の構築事例を中心に、最新のセキュリティログ基盤の動向を紹介する連載。今回は、どのような思想とこだわりを持ってシステムを設計したのか解説する。

» 2022年03月08日 05時00分 公開
[日比野恒ITmedia]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 セキュリティ業務に特化したログ製品であるSIEM(Security Information and Event Management)やUEBA(User Behavior Analytics)ではなく、デジタルマーケティング領域やビッグデータ解析などで利用されることの多いDWH(データウェアハウス)を応用した「次世代セキュリティDWH」の構築事例を紹介する本連載「セキュリティ組織にデータ民主化を――『次世代セキュリティDWH』大解剖」。連載初回は、その背景やきっかけ、考え方について解説しました。

 第2回は、どのような思想とこだわりを持ってシステムを設計したのか、ETL(Extract、Transform、Load)サービスの「Cloud Data Fusion」と次世代BI(ビジネスインテリジェンス)サービス「Looker」を中心に解説します。

システムアーキテクチャの紹介

 システムの全体像やアーキテクチャ、各コンポーネントの役割について説明します。扱うデータにはセキュリティ業務で利用するセンシティブな情報が多く含まれているので、「Google Cloud」で実装したセキュリティにおける考慮ポイントについても触れます。

セキュリティDWHの概要

 大前提ですが、本システムはGoogle Cloud上に構築しています。前回も触れましたが、BigQueryを中心としたアーキテクチャで課題に挑んだことが主な要因です。また、BigQuery以外のコンポーネントもインフラの運用維持にかかる負担やトータルコストを抑えるために全てマネージドサービスの組み合わせによるサーバレスアーキテクチャで構成しているところもこだわったポイントです。

 BigQueryに格納するデータには、オンプレミス環境で生成されるログもあれば、クラウドサービスからAPIを使って取得しているログもあります。さまざまなフォーマットのログを異なるプロトコルを使ってデータ基盤に集めるためにCloud Data Fusionを利用しています。

 Cloud Data Fusionは、「Google Cloud Next'19」で発表されたローコードETLサービスであり、2018年にGoogleが買収したオープンソースソフトウェア(OSS)のCDAP(Cask Data Application Platform)がベースのマネージドサービスです。用途に応じてバッチ処理とストリーミング処理を使い分けることができます。

 オンプレミス環境のログは、Google製の「gsutil」ツールを使って「Cloud Storage」にアップロードし、「GCS Source Plugin」を使ってBigQueryに格納しています。クラウドサービスのログは「HTTP Source Plugin」を使ってAPIを実行することで直接格納する方式を採用しました。

 LookerはBigQueryに格納したデータを可視化、分析するために利用しています。SQLでクエリ文を書くことなくダッシュボードを作成できるので、ビジネスユーザーが新たな気付きをスピーディーに得られるよう設計しました。

セキュアな設計

 システム構成図をベースに「各コンポーネントがどのように連携しているのか」「どのようなセキュリティ思想で重要なデータを囲い込んでいるのか」を説明します。

 まず、取得したログが蓄積されるCloud StorageとBigQueryを厳重に守る必要があります。Google Cloudの「VPC Service Controls」を利用することでこの2つのリソースをサービス境界内で保護し、外部から不正アクセスできないように論理的な壁を構築しました。

 しかし、オンプレミス環境からCloud Storageにログをアップロードするgsutilツールとログ分析で利用するLookerは境界内のサービスにアクセスするように制御する必要があります。オンプレミス環境の出口やLookerが利用するIPアドレスだけVPC Service Controlsの許可リストに登録することで安全にデータにアクセスします。

 次にCloud Data Fusionですが、プライベートインスタンスとして作成することでVPC内に閉じた環境に構築できます。Cloud Data FusionはETL処理を実行するたび、「Apache Spark」のマネージドサービスである「Dataproc」のクラスタが起動します。「Private Google Access」を有効化しておくことでDataprocからCloud StorageやBigQueryにアクセスする際はVPC内に閉じた通信にすることができます。随所に安全なデータアクセスの工夫を施しました。

Cloud Data Fusionのパイプライン設計

 ここでは、パイプラインの作成単位、パイプライン開発方法、利用したプラグイン、性能チューニング方法など、Cloud Data Fusionの設計方針を深堀りします。

パイプラインの設計方針

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

AI for エンジニアリング
「サプライチェーン攻撃」対策
1P情シスのための脆弱性管理/対策の現実解
OSSのサプライチェーン管理、取るべきアクションとは
Microsoft & Windows最前線2024
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。