Mythosの一般利用を想定して改善されたAnthropicの新モデル「Claude Fable 5」に対し、研究者が複数の手法を組み合わせて検証し、ガードレールを突破したと報告した。一体どのような手法を使ったのか。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
セキュリティニュースメディア「GBHackers on Security」は2026年6月11日(現地時間)、Anthropicの最新AIモデル「Claude Fable 5」が研究者によってジェイルブレイク(脱獄)され、脆弱(ぜいじゃく)性悪用に関する知識や不正利用につながる出力を生成できたとの報告が公表されたと伝えた。高度な大規模言語モデル(LLM)の安全対策の有効性を巡り、新たな議論を呼ぶ事態となっている。
報告したのは「Pliny the Liberator」を名乗る研究者だ。同研究者は複数のエージェントを使った協調的な検証によって、Claude Fable 5の安全対策をテストしたという。
報告によると、攻撃ではプロンプトエンジニアリングや言語的な難読化、長い会話履歴を利用した操作を組み合わせ、Anthropicが「Mythos」のアーキテクチャに組み込んだ安全対策の回避を試みた。結果的に、同研究者は複数の回避手法を発見したとしている。
見つかった回避手法の中にはUnicodeホモグリフの利用やキリル文字への置換など、キーワード検出型のフィルタリング機構を回避するための文字変換技術が含まれていた。こうした手法により、有害な意図を持つプロンプトを無害な入力であるかのように見せかけ、安全判定機構を通過させることが可能になったとされる。
この他、研究者は長文脈の会話処理機能にも着目した。危険な指示を複数回のやりとりに分散させ、それぞれ個別には問題の少ない内容として提示し、後から統合して実用的な情報に再構成する方法が利用されたという。
今回の報告で特に高度な手法として紹介されたのが「分解と再構成(decomposition and recomposition)」だ。この方法では、脆弱性悪用コードや化学物質の合成手順のような禁止対象の情報を直接求めない。代わりに、関連する個別工程や基礎原理、学術的説明などを段階的に取得する。
それぞれの回答は単独では中立的な内容として扱われるが、外部で組み合わせることで、本来制限されるべき手順や知識を再現できる可能性があるという。研究者は「直接的な要求を避けながら断片的な情報を収集することで、制限対象となる知識に到達できる」と説明している。
検証では物語形式や学術的な文体も利用された。悪意ある質問を架空のシナリオや査読作業、分類学の議論などとして提示することで、安全判定機構の判断に影響を与えたとされる。
報告によれば、モデルの意図判定システムは分析目的や教育目的と解釈できる形式の質問に対し、制限が比較的緩やかになる傾向を示したという。この特徴を利用し、検証では危険な内容を研究目的や解説目的に見せかけた。
通常の学習データ分布から外れた特殊なトークンや、構造化文書の推論機能も組み合わせられた。こうした技法の併用によって、安全対策を突破できる可能性が高まったと報告されている。
セキュリティ分野の専門家は、この事例がAI安全性に関する広範な課題を示していると指摘する。多様な言語表現や長期的な会話文脈に対し、一貫したポリシー適用を実現することは依然として難しい問題だ。
LLMの能力向上に伴い、攻撃者がAIシステムそのものを標的として検証する動きも活発化している。これは従来のソフトウェア製品における脆弱性調査と同様の発想であり、AIモデルも敵対的テストの対象になりつつあることを示している。
現時点で、Claude Fable 5が実際のサイバー攻撃に悪用された証拠は確認されていない。しかし機微な手順的知識を引き出せる可能性が示されたことで、脆弱性悪用手法の開発やソーシャルエンジニアリング、マルウェア設計などへの転用を懸念する声が出ている。
今回の報告は、現行のガードレール実装が抱える限界を浮き彫りにした。単純なキーワード検出や意図分類だけでは、多様な表現や複雑な文脈操作に十分対応できない可能性が示された形だ。
Anthropicは記事掲載時点で、今回の具体的な主張に関する詳細な見解を公表していない。ただし、この事例は次世代AIシステムにおける研究利用の有用性、公開性、安全性、不正利用防止策の均衡を巡る議論をいっそう活発化させる可能性がある。
パスキー神話崩壊 Google Password Managerの同期機能を狙う新攻撃手法
イラン vs. 米国・イスラエル 現実味を増す“サイバー報復”の連鎖【動画あり】
EDRを“窒息”させる攻撃ツールが公開 Windows標準搭載のQoSを利用
世界中のWebサーバが影響 Apacheが危険な脆弱性を一斉修正
5週間で340超の企業が被害に Microsoft 365のアクセスを奪う新型フィッシングに注意Copyright © ITmedia, Inc. All Rights Reserved.