機械学習で従来の約0.1%のデータからコンピュータウイルスの侵入検知 東京都市大学半教師ありアルゴリズムで

東京都市大学は従来の0.1%程度のサンプルデータでコンピュータウイルスの約82%を検出できるネットワーク侵入検知システムを、機械学習を用いて開発したことを発表した。

» 2020年04月09日 13時30分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 東京都市大学は2020年4月8日、従来の0.1%程度のサンプルデータでコンピュータウイルスの約82%を検出できるネットワーク侵入検知システムを、半教師あり機械学習アルゴリズムを用いて開発したことを発表した。同大学情報工学部知能情報工学科 教授の塩本公平氏による研究成果だ。

 セキュリティ対策の一つとして知られるウイルス対策ソフトは、ウイルスの特徴をまとめて定義したパターンファイルを基に、侵入を検知する。しかし、既知のウイルスを改変した亜種(または新種)が出現した場合、パターンファイルに定義されていないため、ウイルスの侵入を検知できないという課題があった。

 そこで近年、機械学習を使ってパケット通信の特徴を分析し、ウイルスの侵入を検知する技術が開発されている。しかし、ウイルス感染につながるパケット通信のパターンは広く知られておらず、手作業で多量の学習データを用意することは容易ではなかった。

 この課題を解消すべく、本研究では半教師あり学習の一つである「敵対的自己符号化器」という機械学習アルゴリズムを用いて、ネットワーク侵入検知システムを開発した。敵対的自己符号化器は、入力データを再現するニューラルネットワークである自己符号化器に、任意の確率分布に従うデータを出力できる、敵対的生成型のニューラルネットワークを組み合わせるもの。これにより、ウイルス感染を起こすパケット通信パターンデータの特徴量が、任意の確率分布に従うデータを再現できる。

半教師あり機械学習の概念 左の教師あり学習ではラベル付きデータのみを用いるため、間違った境界線(直線)となる。右の半教師あり学習ではラベルなしデータも用いるため、正しい境界線(曲線)となる。(出典:東京都市大学) 半教師あり機械学習の概念 左の教師あり学習ではラベル付きデータのみを用いるため、間違った境界線(直線)となる。右の半教師あり学習ではラベルなしデータも用いるため、正しい境界線(曲線)となる。(出典:東京都市大学)

 本手法を用いて開発されたネットワーク侵入検知システムは、特徴量をあらかじめ決めておき、ウイルス感染を起こす場合とそうでない場合を分け、そこから少量のパケット通信パターンをサンプルとして選び、特徴量を学習する。

今後の実用化のめどは?

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。