機械学習で従来の約0.1％のデータからコンピュータウイルスの侵入検知　東京都市大学：半教師ありアルゴリズムで

東京都市大学は従来の0.1％程度のサンプルデータでコンピュータウイルスの約82％を検出できるネットワーク侵入検知システムを、機械学習を用いて開発したことを発表した。

» 2020年04月09日 13時30分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　東京都市大学は2020年4月8日、従来の0.1％程度のサンプルデータでコンピュータウイルスの約82％を検出できるネットワーク侵入検知システムを、半教師あり機械学習アルゴリズムを用いて開発したことを発表した。同大学情報工学部知能情報工学科教授の塩本公平氏による研究成果だ。

　セキュリティ対策の一つとして知られるウイルス対策ソフトは、ウイルスの特徴をまとめて定義したパターンファイルを基に、侵入を検知する。しかし、既知のウイルスを改変した亜種（または新種）が出現した場合、パターンファイルに定義されていないため、ウイルスの侵入を検知できないという課題があった。

　そこで近年、機械学習を使ってパケット通信の特徴を分析し、ウイルスの侵入を検知する技術が開発されている。しかし、ウイルス感染につながるパケット通信のパターンは広く知られておらず、手作業で多量の学習データを用意することは容易ではなかった。

　この課題を解消すべく、本研究では半教師あり学習の一つである「敵対的自己符号化器」という機械学習アルゴリズムを用いて、ネットワーク侵入検知システムを開発した。敵対的自己符号化器は、入力データを再現するニューラルネットワークである自己符号化器に、任意の確率分布に従うデータを出力できる、敵対的生成型のニューラルネットワークを組み合わせるもの。これにより、ウイルス感染を起こすパケット通信パターンデータの特徴量が、任意の確率分布に従うデータを再現できる。

半教師あり機械学習の概念　左の教師あり学習ではラベル付きデータのみを用いるため、間違った境界線（直線）となる。右の半教師あり学習ではラベルなしデータも用いるため、正しい境界線（曲線）となる。（出典：東京都市大学）

　本手法を用いて開発されたネットワーク侵入検知システムは、特徴量をあらかじめ決めておき、ウイルス感染を起こす場合とそうでない場合を分け、そこから少量のパケット通信パターンをサンプルとして選び、特徴量を学習する。

今後の実用化のめどは？

　その後、ウイルス感染を起こすような場合とそうでない場合を区別せずに、全てのパケット通信パターンが持つ特徴量の分布状況を学習結果に反映する。結果、少量のサンプルデータで、ウイルス感染を起こすパケット通信パターンを検出できるようになる。

　実際のパケット通信データを用いて有効性を検証した結果、従来の0.1％程度の量のサンプルデータで、約82％の検出率を達成できたという。

　今後は評価、検証した公開データセット以外での検証や改良を進め、1～2年後の実用化を目指すとしている。

ライス大学研究チーム、GPUを使わずにディープラーニングを高速化するアルゴリズムを開発
ライス大学のコンピュータサイエンス研究者チームが、GPUのようなアクセラレーションハードウェアを使用することなく、ディープラーニングを高速化できるという「Sub-Linear Deep Learning Engine」アルゴリズムを開発した。
10万点以上の点群位置合わせ問題を2分で解く　金沢大学の広瀬修氏がアルゴリズムを考案
金沢大学の助教である広瀬修氏は、点群位置合わせ問題を解くための新たなアルゴリズムを考案した。点群位置合わせ問題をベイズ統計学に基づいて定式化することで、最高精度の解を最小計算時間で見つけることに成功したとしている。
「判断の根拠」を示すAIを開発　農研機構
農研機構は、判断の根拠を示すAIを開発した。ジャガイモの葉の画像から95％以上の精度で病気を診断でき、病気の根拠となる画像部分を示すという。