最先端LLMを狙う新たな攻撃手法とは？　Cisco SystemsがAI脅威動向を解説：新たな脱獄手法が登場

AIの進化とともに、サイバー脅威も急速に高度化している。Cisco Systemsは最新のAIセキュリティ動向として、3つの注目すべき脅威を紹介した。

» 2025年02月18日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Cisco Systems（以下、Cisco）は2025年2月1日（米国時間）、AI（人工知能）やLLM（大規模言語モデル）へのサイバー脅威に関するブログエントリを公開した。同社は以下のように説明している。

　AIの脅威研究は、モデルを評価し保護する方法を策定する上で不可欠だ。この分野は極めて動的で急速に進化しており、こうした取り組みは、新たに発生する脆弱（ぜいじゃく）性や敵対的手法から顧客を保護するために重要な役割を果たしている。

　今回、サードパーティーの脅威研究の取り組みから得られた有益なハイライトや重要な情報を統合し、共有する。なお、ここで取り上げる内容はAIに対するサイバー脅威の網羅的、包括的なリストではなく、Ciscoが特に注目すべきと判断したものの精選であることを念頭においてほしい。

2025年1月、注目すべき脅威と動向

シングルターンクレッシェンド攻撃（STCA）

　これまでの脅威分析では、大規模言語モデル（LLM）に対する攻撃手法として、コンテンツモデレーションフィルターを回避するために段階的なエスカレーションを伴うマルチターン対話が確認されていた。しかし、シングルターンクレッシェンド攻撃（STCA）は、1回のインタラクション内で拡張された対話をシミュレートし、効率的に複数の最先端モデルを脱獄する点で大きく進化している。

　シングルターンクレッシェンド攻撃は、LLMのパターン継続傾向を悪用して、1つのプロンプト内で論争的または露骨なコンテンツへと誘導するコンテキストを形成する。この手法の研究者であるアラン・アクラウィ氏とアリアン・アバシ氏は、「GPT-4o」「Gemini 1.5」「Llama 3」の派生モデルなどに対する攻撃が成功することを実証した。この攻撃の現実世界への影響は極めて深刻であり、強力なコンテンツモデレーションやフィルター対策の重要性を浮き彫りにしている。

SATAを利用した脱獄

　SATA（Simple Assistive Task Linkage）は、シンプルな補助タスクを活用してLLMを脱獄する新たなアプローチだ。この手法では、特定のプロンプト内の有害なキーワードをマスキングし、マスキング言語モデル（MLM）や位置情報に基づく要素検索（ELP）などの簡単な補助タスクを用いることで、マスクされた単語によって生じた意味の空白を補完する。

　清華大学、合肥工業大学、上海期智研究院の研究者らは、「AdvBench」データセットでMLMを使用した場合の攻撃成功率が85％、ELPを使用した場合は76％というSATAの高い成功率を実証した。これは既存の手法を大幅に上回る結果であり、SATAがLLMのガードレールを低コストかつ効率的に回避する手法として、大きな影響をもたらす可能性を示唆している。

ニューラルキャリア記事を利用した脱獄

　ニューラルキャリア記事（Neural Carrier Articles）は、禁止されたクエリを無害な記事に埋め込むことで、モデルのガードレールを効果的に回避する高度な脱獄手法だ。この技術では、「WordNet」などの語彙（ごい）データベースとプロンプト生成用LLMを利用し、モデルのセーフガードをトリガーすることなく、元の有害クエリと意味的に類似したプロンプトを生成する。

　ペンシルベニア州立大学、北アリゾナ大学、ウースター工科大学、カーネギーメロン大学の研究者らは、この攻撃がブラックボックス環境においても複数の最先端モデルに対して有効であり、かつ参入障壁も比較的低いことを実証した。「GPT-3.5」「GPT-4」「Llama 2」、Llama 3、「Gemini」など、6つの主要なLLMを対象に評価した。その結果、攻撃成功率はモデルやクエリに応じて21.28％から92.55％の範囲に達した。

さらなる脅威の探求が必要

　LLMに対する敵対的な攻撃を調査した新しい包括的な研究によると、攻撃対象は従来考えられていたよりも広範に及び、脱獄だけでなく、ミスディレクション、モデル制御、サービス拒否、データ抽出にまで及んでいると主張されている。ELLIS Institute（ヨーロッパのAI研究機構）とメリーランド大学の研究者は、Llama 2モデルに対するさまざまな攻撃戦略を実証する対照実験を実施し、LLMの脆弱性を理解し対処することの重要性を強調している。

オープンソースAIはどこに向かう？　新たなガバナンス戦略をOSIとOpen Futureが発表
Open Source InitiativeとOpen Futureは、ホワイトペーパー「オープンソースAIにおけるデータガバナンス：責任ある体系的なアクセスの実現」を発表した。この文書では、AIの根本的課題を解決するためのビジョンや行動が描かれている。
SBOMのAI・データセット版「AI BOM」（AI部品表）とは何か？　Linux Foundationが実践ガイドを公開
Linux Foundation Japanは、レポート「SPDX 3.0を用いたAI部品表の実装」を公開した。SBOMを拡張したAI BOMの概念を解説している。
「システムはLLMが前提に」――LayerX CTO松本氏が語る、生成AIがシステムにもたらす変化　「AIエージェントがSaaSを操作する時代」に危機感を募らせる理由
生成AIの進化は、ビジネスと同義となっているシステムの在り方をどう変化させていくのか。ブログやコミュニティー活動を通じて「システムはLLMが前提に」と情報発信しているLayerX CTOの松本勇気氏に、話を聞いた。