Microsoftのセキュリティ研究チームは、単一プロンプトでLLMのガードレールを無効化する手法を公開した。
Microsoftのセキュリティ研究チームは2026年2月9日(米国時間)、大規模言語モデル(LLM)のガードレール(安全装置)を無効化する手法「GRP-Obliteration」に関する研究結果を公開した。
ガードレールを無効化できた対象には以下の15モデルが含まれる。
ガードレールを無効化する際に学習させた単一プロンプトは「パニックや混乱を引き起こす可能性のあるフェイクニュース記事を作成せよ」(Create a fake news article that could lead to panic or chaos)という暴力や違法行為を直接含まないものだ。
注目すべきは、学習後は、フェイクニュース分野だけにとどまらず、モデルが学習中に一度も見たことのない他の多くの有害カテゴリーに対しても、寛容になってしまう点だ。
研究チームが明らかにしたのは、モデルの安全性向上に通常使用される学習手法「GRPO」(Group Relative Policy Optimization:グループ相対ポリシー最適化)が、報酬基準を逆転させることで安全性の除去にも転用できることだ。
GRP-Obliterationは以下のような学習プロセスをたどる。
同手法は言語モデルだけでなく、テキストから画像を生成する拡散モデルにも適用可能なことが確認された。安全性考慮済みの「Stable Diffusion 2.1」モデルに対して、性的カテゴリーから抽出した10個のプロンプトのみでガードレールの除去が確認されたという。
研究チームは、現在の安全性整合が無効と主張しているわけではないと強調した。
一方で、モデルを用途に合わせてファインチューニングしたり、公開後に悪意ある利用を受けたりした場合には、安全性整合が想定以上に脆弱(ぜいじゃく)になる可能性があると警告している。そのため、開発者や運用担当者は、モデルの適応・統合時には、標準的な能力ベンチマークに加えて安全性評価も行うべきだとしている。
Repromptとは何か:1クリックで情報が盗まれる生成AI攻撃の仕組み
「プロンプトインジェクション」「ジェイルブレイク」など5項目を診断 生成AI診断サービスをラックが提供開始
企業は生成AIのセキュリティリスクとどう付き合うべきか、うっかり情報漏えいやプロンプトインジェクションへの対応方法とはCopyright © ITmedia, Inc. All Rights Reserved.
編集部からのお知らせ