MicrosoftとIntel、ディープラーニングでマルウェアを分類する研究成果を発表：マルウェアバイナリを画像に変換　転移学習を利用

Microsoftの脅威保護インテリジェンスチームとIntel Labsの研究者が、ディープラーニングをマルウェア分類に応用する新しい方法を共同で研究し、成果を挙げた。

» 2020年06月17日 10時30分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Microsoftは2020年5月8日（米国時間）、同社の脅威保護インテリジェンスチームとIntel Labsの研究者が、ディープラーニングをマルウェア分類に応用する新しい方法を共同で研究し、成果を挙げたことを明らかにした。

　両社の研究者は、特に次の研究を進めてきた。

コンピュータビジョンにおけるディープラーニングの成果を静的マルウェア分類に活用
ディープラーニング手法をモデルサイズに関して最適化し、プラットフォームのハードウェア機能を活用して、ディープラーニングによるマルウェア検出アプローチの実行を改善

　前者の共同研究は、ディープラーニングの成果を静的マルウェア分類に応用する方法に関するIntelの従来の研究をベースにして実施した。コンピュータビジョンのタスクとしてマルウェア分類の問題に取り組むことの実用的価値を、Microsoftの実世界データを使って確認した。

　この共同研究は、次の洞察に基づいている。「マルウェアバイナリをグレースケール画像としてプロットした場合、そのテクスチャおよび構造パターンが、効果的にバイナリを無害または悪意ありと分類し、悪意あるバイナリを各脅威ファミリーにクラスタ化するのに利用できる」

　研究者は、「STAtic Malware-as-Image Network Analysis」（STAMINA）というアプローチを採用し、Microsoftのデータセットを利用して研究した。このアプローチにより、マルウェアを高精度に検知できることを証明した。

　研究成果と技術的な詳細は「STAMINA: Scalable Deep Learning Approach for Malware Classification」という論文にまとめられている。

ディープラーニングベースのマルウェア分類における静的分析の役割

　静的分析は通常、従来の検知手法に関連するが、人工知能（AI）ベースのマルウェア検知でも重要な要素だ。静的分析は、アプリケーションの実行やランタイムの挙動を監視することなく、コードを解析する。

　この目的のためにファイルのメタデータが生成される。AIベースの検知では、クライアントやクラウドで機械学習分類器がメタデータを分析することで、悪意あるファイルかどうかを判定する。静的分析により、ほとんどの脅威は実行する前に特定される。

　複雑な脅威を検知するために行われる動的分析や挙動分析も、静的分析をベースにしている。

　静的分析を大規模かつ効果的に実施する方法を見いだすため、Microsoftの脅威保護インテリジェンスチームとIntel Labsの研究者は、コンピュータビジョン分野で得られた知識を援用し、高度な静的マルウェア検知フレームワークを構築した。このフレームワークは、コンピュータビジョンにおけるディープラーニングの成果を生かして、画像として表現されたポータブル実行可能（PE）バイナリに関するトレーニングを行う。

マルウェアバイナリを画像に変換

　研究者はSTAMINAアプローチの実用性を証明するために、「画像変換」「トランスファーラーニング（転移学習）」「評価」という3つのステップを踏んだ。このアプローチは、画像として表現されたマルウェアコードの静的分析を実施することで、大規模なマルウェア分類が可能になると想定している。

STAMINAアプローチの3ステップ（前処理、転移学習、評価）（出典：Microsoft）

　まず、研究者はバイナリを2D画像に変換した。このステップには、ピクセル変換、再形成、サイズ変更が含まれる。

　各バイトに、ピクセル強度に合わせて0～255の値を割り当てることで、バイナリを1次元のピクセルストリームに変換。各ピクセルストリームは、ファイルサイズに基づいて画像の幅、高さを決めることで、2D画像に変換した。

　2番目のステップに利用した転移学習は、孤立した学習パラダイムを克服し、あるタスクのために得られた知識を、関連するタスクの解決に応用する手法だ。転移学習は、数種類のコンピュータビジョンアプリケーションで大きな成功を収めている。最適なハイパーパラメーターやさまざまなアーキテクチャを探る必要がないため、トレーニング時間を短縮できる他、高い分類パフォーマンスを維持できる点が特長だ。研究者はこの研究で、「Inception-v1」を基本モデルとして使用した。

　研究では、Microsoftが提供した220万のPEファイルハッシュのデータセットが使われた。このデータセットは、トレーニング、検証、テストのために、それぞれ60対20対20のセグメントに一時的に分割された。

自然画像で事前にトレーニングされた、ディープニューラルネットワーク（DNN）の重みと、新しいデータで微調整される部分（出典：Microsoft）

　最後に、提供されたテストデータセットを使ってシステムのパフォーマンスが測定、報告された。得られた指標には、特定の誤検知率での再現率、精度、F1スコア、AUC ROC（受信者操作特性《ROC》曲線の下の面積）などが含まれる。

実験の結果

　用意された実世界テストデータセットにSTAMINAを適用したところ、誤検知率0.1％での再現率87.05％、誤検知率2.58％で再現率99.66％、精度99.07％が実現できた。この結果は、転移学習を用いたディープラーニングのマルウェア分類への応用を後押しするものだ。転移学習を用いて、最適なハイパーパラメーターやアーキテクチャの探索を不要にすることでトレーニングをスピードアップし、このプロセスにおける時間とコンピューティングリソースの節約を実現する。

　この研究は、STAMINAのようなサンプルベースの手法と、メタデータベースの分類手法の長所と短所を浮き彫りにした。例えば、STAMINAは、サンプルを深く掘り下げ、メタデータでは得られないかもしれないシグナルを抽出できる。だが、大規模なアプリケーションでは、STAMINAの効果は低下する。数十億のピクセルをJPEG画像に変換し、それらのサイズ変更をすることが制約になるためだ。こうした場合は、メタデータベースの手法が強みを発揮する。

　Microsoftは、Intel Labsの研究者とのコラボレーションについて、「Microsoftの研究者とデータサイエンティストが、セキュリティ全般を向上させる新しい方法の探求を続けていることを示す一例だ」と述べ、今後の共同研究に向けた土台形成につながるとしている。