偽の文書を大量に自動生成して知財を保護するAIシステムを設計、ダートマス大：攻撃者側のコストが跳ね上がる

ダートマス大学の研究チームは、AIを用いて偽の文書を大量に自動生成し、医薬品設計や軍事技術のような知的財産を保護するシステム「WE-FORGE」を設計した。人手を借りることなく、本物と見分けることが難しい文書を大量生成することで、攻撃者にコストを強いることが目的だ。

[＠IT] PC用表示関連情報

LINE

Hatena

　ダートマス大学は2021年3月1日（米国時間）、コンピュータサイエンス学科の研究チームが、新しいデータ保護システム「WE-FORGE」を設計したと発表した。このシステムは、AIを用いて偽の文書を大量に自動生成することで、医薬品設計や軍事技術のような知的財産を保護する。

　「このシステムが生成する偽の文書は、元の文書と非常に似ており、本物らしく見えるが、実は元の文書と異なる不正確なものだ」と、研究チームを率いた同大学のサイバーセキュリティ、技術、社会ディスティングイッシュトプロフェッサーのV.S.スブラマニアン氏は語る。

ハニーファイルとはどこが違うのか

　サイバーセキュリティの専門家はこれまで、サイバー攻撃者をだましておびき寄せるために、「ハニーファイル」と呼ばれるおとりのファイルを作成して利用してきた。WE-FORGEは自然言語処理を用いて、もっともらしいが不正確な偽の文書を大量に自動生成する点で、従来の手法よりも優れているという。さらにWE-FORGEは、ランダム要素を挿入することで、攻撃者が本物の文書を簡単に特定できないようにしている。

　WE-FORGEでは、任意の技術設計文書の偽バージョンを大量に作成できる。攻撃者がシステムのハックに成功したとしても、多数の似たような文書のうちどれが本物かを見分けるという厄介な作業を強いられる。

　「われわれは今回の手法により、攻撃者に時間と労力を浪費するよう強いることができる。攻撃者は正しい文書を見つけても、見つけたという確信を持てないかもしれない」（スブラマニアン氏）

どのように偽文書を生成するのか

　偽の技術文書を生成するのは、決して容易なことではない。研究チームによると、1件の特許には1000以上の概念が含まれることがあり、それぞれの概念は最大20種類の置き換えが可能だという。WE-FORGEはある一つの技術文書において、置き換えが求められる可能性がある全ての概念について、数百万通り以上の置き換え方を出力できるという。

　WE-FORGEのアルゴリズムは、文書中にある概念間の類似性を計算し、文書に対する各単語の関連度を分析することで機能している。その後、概念を「ビン」（階級）に分類し、各ビンについて、実現可能な候補を計算する。

　「WE-FORGEは、元の文書の著者から入力を受け取ることもできる。人とマシンの連携により、知的財産を盗む者のコストをさらに引き上げることが可能だ」（研究チームに所属する同大学のドンカイ・チェン氏）

　「攻撃者は現在、知的財産を盗んだら、それをただで持ち出している。だが、このシステムを使えば、政府機密や産業機密を盗んだ攻撃者に、多大なコストを負わせることができる」（スブラマニアン氏）

コンピュータ科学と化学に関する技術文書で性能を実証

　研究チームは、WE-FORGEについてまとめた論文を、「ACM Transactions on Management Information Systems」誌のオンライン版で発表した。

　論文では「FORGE」と呼ばれる従来型の偽文書生成システムと今回のWE-FORGEを比較している。FORGEには2つの欠点があった。第一にFORGEが機能するためには概念同士の関係性を表す「オントロジー」が必要であるため、技術文書と同時にオントロジーを人が作成する必要があった。第二にFORGEは元の文書からターゲットとなる概念を取り出し、別の概念に置き換えることで機能しているが、概念の取り出しが必ずしもうまくいっていない。

　WE-FORGEでは概念を表す単語間の距離メトリックを利用することで、オントロジーが必要なくなっている。さらに概念の置き換えの問題も改善されている。

　研究チームはコンピュータ科学と化学に関連する技術文書に対してWE-FORGEを用い、その分野に知識がある被験者に本物を識別してもらった。その結果、攻撃者に対して効果的であることを示した。

偽の文書を大量に自動生成して知財を保護するAIシステムを設計、ダートマス大：攻撃者側のコストが跳ね上がる

ハニーファイルとはどこが違うのか

どのように偽文書を生成するのか

コンピュータ科学と化学に関する技術文書で性能を実証

関連記事

関連リンク

Smart & Social 記事ランキング