誤った判断を下したとき、AIには何が起きているのか：AIに誤判定を起こす敵対的サンプルとは

ヒューストン大学の研究者は、AI技術の一種であるディープニューラルネットワーク（DNN）が誤った判断を下した場合、その原因について、敵対的サンプルによるものだと安易に決めつけてはならないと指摘する。

» 2020年12月17日 15時30分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　ヒューストン大学は2020年11月23日、ディープニューラルネットワーク（DNN）が誤った判断を下したと考えられる場合、その原因についての一般的な仮定は間違っている可能性があると発表した。同大学哲学准教授キャメロン・バックナー氏は、「Nature Machine Intelligence」で発表した論文の中で、このことは、DNNの信頼性を評価する上で重要だとしている。

　DNNは数学的モデリングを用いて画像やその他のデータを処理するために構築された多層システムであり、現在、最も普及し、成功しているAI技術だ。だが、DNNシステムには脆弱（ぜいじゃく）性がある。中でも注目されているのが、学習時に出会ったことがない敵対的サンプルに影響されやすいことだ。

　バックナー氏は論文で、敵対的サンプルに関する最近の実証研究をレビューした。この研究はDNNが敵対的サンプルの中から、人間には計り知れないながらも、有用と予想される特徴を検出している可能性を示唆しているという。

敵対的サンプルに原因を押し付けていないか

　同氏は次のように述べている。「DNNシステムが構築時に使われたトレーニング入力の範囲から外れた情報に直面したとき、画像などのデータについての判断を誤ることがある。その場合、研究者が『敵対的サンプル』と呼ぶものに起因すると考えられている。だが、（ここで止まってしまうのではなくさらに）原因を理解することが重要だ」

　こうしたトレーニング入力の範囲から外れた情報はまれであり、「敵対的」と呼ばれる。これらは多くの場合、他の機械学習ネットワークによって作成または発見されるためだ。これは機械学習の世界において、敵対的サンプルを作る高度な方法と、それらを検出または回避する高度な方法の間で展開される、一種の瀬戸際政策といえるだろう。

　「こうした敵対的イベントの一部は、アーティファクトかもしれない。DNNの信頼性を把握するには、それらが何であるのかをよりよく理解する必要がある」と、バックナー氏は述べている。

　DNNが期待された判断を下さなかった場合、DNNが処理するよう求められたものと、その中に含まれる実際のパターンとの相互作用に起因する可能性があるということだ。つまり、そのDNNの判断は完全な誤りではないのかもしれない。

　「敵対的サンプルの意味を理解するには、第3の可能性、つまり、少なくともこれらのパターンの『一部のみ』が、アーティファクトである可能性を探る必要がある。現時点では、こうしたパターンを切り捨てることにはコストがかかり、（何も考慮せずに）単純に使うことには危険がある」（バックナー氏）

敵対的サンプルには危険性がある

　こうした機械学習システムに判断を誤らせる敵対的イベントは、意図的な不正行為によって発生するとは限らないが、もしそうなれば極めて高いリスクを伴う。

　「信頼性の高いDNNに依存するシステムを、悪意ある人物がだます可能性がある。これはセキュリティ上の脅威だ」と、バックナー氏は指摘する。

　例えば顔認識技術に基づくセキュリティシステムが、ハッキングによって侵害されたり、交通標識にステッカーが貼られ、そのせいで自動運転車が標識を誤解したりするかもしれない。

　既に研究者の間ではある色彩や形状の眼鏡（敵対的眼鏡）をかけることで、顔認証を誤らせる手法が広く知られている。

レンズフレアのようにデータについての何らかの情報を含んでいる可能性がある

　最近の研究によると、従来の想定とは異なり、自然に発生する敵対的サンプルが存在することが分かった。つまり、機械学習システムがデータのエラーによってではなく、予想外の相互作用によって、データを誤って解釈する場合があるということだ。こうした敵対的サンプルは珍しく、AIを使った際にのみ発見できるという。

　だが、そうした敵対的サンプルは現実に存在する。バックナー氏は、「このことは、アノマリー（異常値）、すなわちアーティファクトに対する研究者のアプローチを再考する必要性を示唆している」と述べている。

　こうしたアーティファクトはよく理解されていない。バックナー氏は理解の助けとなる例として、写真のレンズフレアを引き合いに出す。レンズフレアはカメラレンズの欠陥による現象ではなく、光とカメラの相互作用によって発生するぼやけた光の円などの連なりだ。

　レンズフレアは見る人が解釈の仕方を知っていれば、有用な情報（太陽の位置など）を提供する可能性がある。バックナー氏は「このことは、機械学習におけるアーティファクトに起因する敵対的イベントも、有用な情報を提供するかもしれないとう疑問を投げ掛ける」と述べている。

　同様に重要なのが、DNNに対するアーティファクトの影響に関するこの新しい疑問は、「DNNによる誤った解釈は、ディープラーニングが有効ではない証拠だと自動的に考えてはならない」ということだという。

　「こうした敵対的イベントの一部は、アーティファクトである可能性がある。われわれは、DNNがどの程度信頼できるのかを把握できるように、こうしたアーティファクトとは何であるのかを理解しなければならない」（バックナー氏）

「偽装攻撃データを用いてAIモデルに誤判定させる攻撃」への耐性を強化する技術を富士通研究所が開発
富士通研究所は、「偽装攻撃データを用いてAIモデルに誤判定させる攻撃」への耐性を強化する技術を開発した。偽装攻撃の模擬データを大量に自動生成し、元の学習データを結合させることで判定精度を維持したまま偽装攻撃への耐性を向上させる。
人間のように学習して物体を特定、UCLAが視覚システムを開発
カリフォルニア大学ロサンゼルス校（UCLA）サミュエリ工学部とスタンフォード大学の研究者のチームが、視覚システムを開発した。見たものが実際には何なのか、人間が学習するのと同じ方法で学ぶという特徴がある。
機械学習でMicrosoftがセキュリティバグを判定、高い精度が特徴
Microsoftは、教師あり機械学習を活用することにより、セキュリティバグの特定と分類の精度を大幅に向上させたと発表した。開発時、さらには運用後の改善にはセキュリティ専門家の協力を仰ぐことが不可欠なのだという。