機械学習で従来の約0.1%のデータからコンピュータウイルスの侵入検知 東京都市大学半教師ありアルゴリズムで

東京都市大学は従来の0.1%程度のサンプルデータでコンピュータウイルスの約82%を検出できるネットワーク侵入検知システムを、機械学習を用いて開発したことを発表した。

» 2020年04月09日 13時30分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 東京都市大学は2020年4月8日、従来の0.1%程度のサンプルデータでコンピュータウイルスの約82%を検出できるネットワーク侵入検知システムを、半教師あり機械学習アルゴリズムを用いて開発したことを発表した。同大学情報工学部知能情報工学科 教授の塩本公平氏による研究成果だ。

 セキュリティ対策の一つとして知られるウイルス対策ソフトは、ウイルスの特徴をまとめて定義したパターンファイルを基に、侵入を検知する。しかし、既知のウイルスを改変した亜種(または新種)が出現した場合、パターンファイルに定義されていないため、ウイルスの侵入を検知できないという課題があった。

 そこで近年、機械学習を使ってパケット通信の特徴を分析し、ウイルスの侵入を検知する技術が開発されている。しかし、ウイルス感染につながるパケット通信のパターンは広く知られておらず、手作業で多量の学習データを用意することは容易ではなかった。

 この課題を解消すべく、本研究では半教師あり学習の一つである「敵対的自己符号化器」という機械学習アルゴリズムを用いて、ネットワーク侵入検知システムを開発した。敵対的自己符号化器は、入力データを再現するニューラルネットワークである自己符号化器に、任意の確率分布に従うデータを出力できる、敵対的生成型のニューラルネットワークを組み合わせるもの。これにより、ウイルス感染を起こすパケット通信パターンデータの特徴量が、任意の確率分布に従うデータを再現できる。

半教師あり機械学習の概念 左の教師あり学習ではラベル付きデータのみを用いるため、間違った境界線(直線)となる。右の半教師あり学習ではラベルなしデータも用いるため、正しい境界線(曲線)となる。(出典:東京都市大学) 半教師あり機械学習の概念 左の教師あり学習ではラベル付きデータのみを用いるため、間違った境界線(直線)となる。右の半教師あり学習ではラベルなしデータも用いるため、正しい境界線(曲線)となる。(出典:東京都市大学)

 本手法を用いて開発されたネットワーク侵入検知システムは、特徴量をあらかじめ決めておき、ウイルス感染を起こす場合とそうでない場合を分け、そこから少量のパケット通信パターンをサンプルとして選び、特徴量を学習する。

今後の実用化のめどは?

 その後、ウイルス感染を起こすような場合とそうでない場合を区別せずに、全てのパケット通信パターンが持つ特徴量の分布状況を学習結果に反映する。結果、少量のサンプルデータで、ウイルス感染を起こすパケット通信パターンを検出できるようになる。

 実際のパケット通信データを用いて有効性を検証した結果、従来の0.1%程度の量のサンプルデータで、約82%の検出率を達成できたという。

 今後は評価、検証した公開データセット以外での検証や改良を進め、1〜2年後の実用化を目指すとしている。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。