東京都市大学は従来の0.1%程度のサンプルデータでコンピュータウイルスの約82%を検出できるネットワーク侵入検知システムを、機械学習を用いて開発したことを発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
東京都市大学は2020年4月8日、従来の0.1%程度のサンプルデータでコンピュータウイルスの約82%を検出できるネットワーク侵入検知システムを、半教師あり機械学習アルゴリズムを用いて開発したことを発表した。同大学情報工学部知能情報工学科 教授の塩本公平氏による研究成果だ。
セキュリティ対策の一つとして知られるウイルス対策ソフトは、ウイルスの特徴をまとめて定義したパターンファイルを基に、侵入を検知する。しかし、既知のウイルスを改変した亜種(または新種)が出現した場合、パターンファイルに定義されていないため、ウイルスの侵入を検知できないという課題があった。
そこで近年、機械学習を使ってパケット通信の特徴を分析し、ウイルスの侵入を検知する技術が開発されている。しかし、ウイルス感染につながるパケット通信のパターンは広く知られておらず、手作業で多量の学習データを用意することは容易ではなかった。
この課題を解消すべく、本研究では半教師あり学習の一つである「敵対的自己符号化器」という機械学習アルゴリズムを用いて、ネットワーク侵入検知システムを開発した。敵対的自己符号化器は、入力データを再現するニューラルネットワークである自己符号化器に、任意の確率分布に従うデータを出力できる、敵対的生成型のニューラルネットワークを組み合わせるもの。これにより、ウイルス感染を起こすパケット通信パターンデータの特徴量が、任意の確率分布に従うデータを再現できる。
本手法を用いて開発されたネットワーク侵入検知システムは、特徴量をあらかじめ決めておき、ウイルス感染を起こす場合とそうでない場合を分け、そこから少量のパケット通信パターンをサンプルとして選び、特徴量を学習する。
その後、ウイルス感染を起こすような場合とそうでない場合を区別せずに、全てのパケット通信パターンが持つ特徴量の分布状況を学習結果に反映する。結果、少量のサンプルデータで、ウイルス感染を起こすパケット通信パターンを検出できるようになる。
実際のパケット通信データを用いて有効性を検証した結果、従来の0.1%程度の量のサンプルデータで、約82%の検出率を達成できたという。
今後は評価、検証した公開データセット以外での検証や改良を進め、1〜2年後の実用化を目指すとしている。
Copyright © ITmedia, Inc. All Rights Reserved.