LLMを「危ないプロンプト」から守る“総務省お墨付き”の具体策とは?:「プロンプトインジェクション攻撃」「DoS攻撃」の対策を紹介
総務省は生成AIを狙う代表的な攻撃と、その対策を整理したガイドラインを公開した。「プロンプトインジェクション攻撃」「DoS攻撃」を想定して、具体的な対策例をまとめている。その内容とは。
総務省は2026年3月27日、「AIのセキュリティ確保のための技術的対策に係るガイドライン」を公表した。これは、同省が2025年9月から開催している有識者会議「サイバーセキュリティタスクフォース」の下に設置した「AIセキュリティ分科会」での検討結果を踏まえて策定したものだ。
同ガイドラインは、活用が進む大規模言語モデル(LLM)や、LLMを構成要素に含むAIシステムを主な対象にしており、AI開発者やAI提供者を主な読者として想定する。不正操作による機密情報の漏えいや、AIシステムの意図しない変更・停止などを防ぐための技術的な対策例を整理している。
LLMを脅かす「プロンプトインジェクション攻撃」「DoS攻撃」 その対策とは?
LLMやAIシステムの現実的な脅威になり得る攻撃として、同ガイドラインは主に不正なプロンプト(指示)を用いる「プロンプトインジェクション攻撃」と、システムの停止を引き起こす「DoS攻撃(サービス拒否攻撃)」という2種類の攻撃を想定し、これらの対策を重点的に紹介する。どのような対策なのか。
1つ目のプロンプトインジェクション攻撃は、LLMに細工したプロンプトやデータを与えて、不正な出力を引き起こす攻撃だ。攻撃者がLLMに直接プロンプトを入力する「直接攻撃」の他、外部データベースやWebページなどを通じてLLMに細工した情報を参照させる「間接攻撃」がある。
2つ目のDoS攻撃は、大量の計算や処理を必要とするプロンプトをAIシステムに入力し、AIシステムの応答遅延や停止を引き起こす攻撃を指す。他の脅威として同ガイドラインは、次の攻撃を挙げる。
- データポイズニング攻撃
- 学習データに細工を施してAIの挙動を変える攻撃
- 細工をしたモデルの導入を通じた攻撃
- 細工したLLMをAIシステムに組み込ませる攻撃
- モデル抽出攻撃
- LLMの入出力を分析して類似モデルを複製する攻撃
同ガイドラインは、プロンプトインジェクション攻撃やDoS攻撃などによるリスクを低減するために、AI開発者やAI提供者が現時点で実施可能な対策例を示す(図)。AI開発者向けの主な対策が「安全基準等の学習による不正な指示への耐性の向上」だ。これは、例えばLLMに安全基準を追加学習させて、意図しない出力を抑制することが該当する。AIの基本動作を定義する「システムプロンプト」など、重要なプロンプトを優先的に処理するように学習させることも含む。
AI提供者向けの主な対策が「システムプロンプトによる不正な指示への耐性の向上」「ガードレール等による入出力や外部参照データの検証」「オーケストレータやRAG(Retrieval-Augmented Generation:検索拡張生成)等の権限管理」の3つだ。ここでのガードレールは、不適切な入力や出力を検知/制御する仕組みを意味する。オーケストレータは、LLMと外部システムとの連携を統括するツールだ。RAGは、外部情報を検索してLLMに追加情報を与える技術を指す。
2種類の想定事例でリスクと対策を理解
同ガイドラインは、AIサービスに関する2種類の想定事例について、データの流れや想定される攻撃シナリオ、対策例などを示す。
1つ目の「内部向けチャットボット(RAG利用)」は、組織内ユーザーから受け取ったプロンプトを基に、内部データストアから情報を取得して回答する事例。2つ目の「外部向けチャットボット(外部連携利用)」は、組織外ユーザーから受け取ったプロンプトを基に、インターネットの公開情報などの外部システムからデータを取得して回答する事例だ。
同ガイドラインはAIエージェントを対象外にした。AIエージェントに特有の脅威や対策は急速に変化しており、現時点では安定的な整理が困難なことが、その理由だという。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「Claude Cowork」にファイル流出の脆弱性 巧妙な間接的プロンプトインジェクションの具体的な中身
Anthropicが公開したAIエージェントのプレビュー版「Claude Cowork」に、ローカルファイル流出の脆弱性が存在することが分かった。巧妙な間接的プロンプトインジェクションを駆使しているという。
ChatGPTやClaudeが知らぬ間に操られる「間接的プロンプトインジェクション」の脅威
AIエージェントの普及とともに、新たなサイバー攻撃「間接的プロンプトインジェクション」が注目されています。ChatGPTやClaude、開発ツールのVS Codeでも情報漏えいや不正操作を引き起こす可能性が確認されているこの手法について、仕組みを解説します。
生成AIやローコードが普及するも、リスク管理やIT人材確保が進まず――NRI調査
野村総合研究所の調査で、生成AIが急速に普及する一方、AIリテラシーの不足やリスクへの対処、レガシーシステムの残存、人材不足といった課題が目立つことが明らかになった。
