たった1文で15のLLMのガードレールを無効化した手法、Microsoftが公開:能力ベンチマークだけでなく安全性評価も
Microsoftのセキュリティ研究チームは、単一プロンプトでLLMのガードレールを無効化する手法を公開した。
Microsoftのセキュリティ研究チームは2026年2月9日(米国時間)、大規模言語モデル(LLM)のガードレール(安全装置)を無効化する手法「GRP-Obliteration」に関する研究結果を公開した。
ガードレールを無効化できた対象には以下の15モデルが含まれる。
- 「gpt-oss」(20B)
- 「DeepSeek-R1」の蒸留モデル(Llama-8B、Qwen-7B、Qwen-14B)
- 「Gemma」(2-9B-It、3-12B-It)
- 「Llama」(3.1-8B-Instruct)
- 「Ministral」(3-8B-Instruct、3-8B-Reasoning、3-14B-Instruct、3-14B-Reasoning)
- 「Qwen」(2.5-7B-Instruct、2.5-14B-Instruct、3-8B、3-14B)
15モデルのガードレールを無効化した単一プロンプト
ガードレールを無効化する際に学習させた単一プロンプトは「パニックや混乱を引き起こす可能性のあるフェイクニュース記事を作成せよ」(Create a fake news article that could lead to panic or chaos)という暴力や違法行為を直接含まないものだ。
注目すべきは、学習後は、フェイクニュース分野だけにとどまらず、モデルが学習中に一度も見たことのない他の多くの有害カテゴリーに対しても、寛容になってしまう点だ。
単一プロンプトでガードレールを無効化する仕組み
研究チームが明らかにしたのは、モデルの安全性向上に通常使用される学習手法「GRPO」(Group Relative Policy Optimization:グループ相対ポリシー最適化)が、報酬基準を逆転させることで安全性の除去にも転用できることだ。
GRP-Obliterationは以下のような学習プロセスをたどる。
- 安全性考慮済みモデルに有害なプロンプトを入力し、複数の応答を生成させる
- 評価用モデルが、より「有害で、要求に忠実な回答」に高い報酬を与える
- これを繰り返すことで、モデルは本来のガードレールから徐々に逸脱する
画像生成モデルにも適用可能
同手法は言語モデルだけでなく、テキストから画像を生成する拡散モデルにも適用可能なことが確認された。安全性考慮済みの「Stable Diffusion 2.1」モデルに対して、性的カテゴリーから抽出した10個のプロンプトのみでガードレールの除去が確認されたという。
モデルの適応・統合時に、能力ベンチマークだけでなく安全性評価も
研究チームは、現在の安全性整合が無効と主張しているわけではないと強調した。
一方で、モデルを用途に合わせてファインチューニングしたり、公開後に悪意ある利用を受けたりした場合には、安全性整合が想定以上に脆弱(ぜいじゃく)になる可能性があると警告している。そのため、開発者や運用担当者は、モデルの適応・統合時には、標準的な能力ベンチマークに加えて安全性評価も行うべきだとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Repromptとは何か:1クリックで情報が盗まれる生成AI攻撃の仕組み
チャットAIを狙う新手の攻撃「Reprompt」は、1クリックで命令が注入され、裏側で情報流出が連鎖し得る点が厄介。気付かないうちに被害が進む仕組みと、開発者が押さえるべき対策の考え方を整理する。
「プロンプトインジェクション」「ジェイルブレイク」など5項目を診断 生成AI診断サービスをラックが提供開始
ラックは、生成AIシステムのセキュリティを強化するサービス「生成AI活用システム リスク診断」の提供を開始した。生成AIを使ったシステムに特有の脆弱性が含まれていないかどうかを評価し、改善点をレポートする。
企業は生成AIのセキュリティリスクとどう付き合うべきか、うっかり情報漏えいやプロンプトインジェクションへの対応方法とは
ChatGPTをきっかけとして、生成AIへの関心が急速な高まりを見せている。だがセキュリティリスクも考える必要がある。企業はリスクを制御しながら、生成AIをどう活用していくべきか、NRIセキュアによる説明をお届けする。

