Claude Fable 5が早速脱獄される　ある研究者が検証結果を公開：危険な知識は断片から作られる？

Mythosの一般利用を想定して改善されたAnthropicの新モデル「Claude Fable 5」に対し、研究者が複数の手法を組み合わせて検証し、ガードレールを突破したと報告した。一体どのような手法を使ったのか。

» 2026年06月15日 07時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　セキュリティニュースメディア「GBHackers on Security」は2026年6月11日（現地時間）、Anthropicの最新AIモデル「Claude Fable 5」が研究者によってジェイルブレイク（脱獄）され、脆弱（ぜいじゃく）性悪用に関する知識や不正利用につながる出力を生成できたとの報告が公表されたと伝えた。高度な大規模言語モデル（LLM）の安全対策の有効性を巡り、新たな議論を呼ぶ事態となっている。

Claude Fable 5が早速脱獄される？　研究者が発見したその手法

　報告したのは「Pliny the Liberator」を名乗る研究者だ。同研究者は複数のエージェントを使った協調的な検証によって、Claude Fable 5の安全対策をテストしたという。

　報告によると、攻撃ではプロンプトエンジニアリングや言語的な難読化、長い会話履歴を利用した操作を組み合わせ、Anthropicが「Mythos」のアーキテクチャに組み込んだ安全対策の回避を試みた。結果的に、同研究者は複数の回避手法を発見したとしている。

　見つかった回避手法の中にはUnicodeホモグリフの利用やキリル文字への置換など、キーワード検出型のフィルタリング機構を回避するための文字変換技術が含まれていた。こうした手法により、有害な意図を持つプロンプトを無害な入力であるかのように見せかけ、安全判定機構を通過させることが可能になったとされる。

　この他、研究者は長文脈の会話処理機能にも着目した。危険な指示を複数回のやりとりに分散させ、それぞれ個別には問題の少ない内容として提示し、後から統合して実用的な情報に再構成する方法が利用されたという。

　今回の報告で特に高度な手法として紹介されたのが「分解と再構成（decomposition and recomposition）」だ。この方法では、脆弱性悪用コードや化学物質の合成手順のような禁止対象の情報を直接求めない。代わりに、関連する個別工程や基礎原理、学術的説明などを段階的に取得する。

　それぞれの回答は単独では中立的な内容として扱われるが、外部で組み合わせることで、本来制限されるべき手順や知識を再現できる可能性があるという。研究者は「直接的な要求を避けながら断片的な情報を収集することで、制限対象となる知識に到達できる」と説明している。

　検証では物語形式や学術的な文体も利用された。悪意ある質問を架空のシナリオや査読作業、分類学の議論などとして提示することで、安全判定機構の判断に影響を与えたとされる。

　報告によれば、モデルの意図判定システムは分析目的や教育目的と解釈できる形式の質問に対し、制限が比較的緩やかになる傾向を示したという。この特徴を利用し、検証では危険な内容を研究目的や解説目的に見せかけた。

　通常の学習データ分布から外れた特殊なトークンや、構造化文書の推論機能も組み合わせられた。こうした技法の併用によって、安全対策を突破できる可能性が高まったと報告されている。

　セキュリティ分野の専門家は、この事例がAI安全性に関する広範な課題を示していると指摘する。多様な言語表現や長期的な会話文脈に対し、一貫したポリシー適用を実現することは依然として難しい問題だ。

　LLMの能力向上に伴い、攻撃者がAIシステムそのものを標的として検証する動きも活発化している。これは従来のソフトウェア製品における脆弱性調査と同様の発想であり、AIモデルも敵対的テストの対象になりつつあることを示している。

　現時点で、Claude Fable 5が実際のサイバー攻撃に悪用された証拠は確認されていない。しかし機微な手順的知識を引き出せる可能性が示されたことで、脆弱性悪用手法の開発やソーシャルエンジニアリング、マルウェア設計などへの転用を懸念する声が出ている。

　今回の報告は、現行のガードレール実装が抱える限界を浮き彫りにした。単純なキーワード検出や意図分類だけでは、多様な表現や複雑な文脈操作に十分対応できない可能性が示された形だ。

　Anthropicは記事掲載時点で、今回の具体的な主張に関する詳細な見解を公表していない。ただし、この事例は次世代AIシステムにおける研究利用の有用性、公開性、安全性、不正利用防止策の均衡を巡る議論をいっそう活発化させる可能性がある。

パスキー神話崩壊　Google Password Managerの同期機能を狙う新攻撃手法
パスワードに代わる認証手段として普及が進むパスキー。しかし、研究者が公表した新たな攻撃手法は、その安全性を支える“別の仕組み”に着目していた。暗号技術そのものを破らず、Google Password Manager利用者の認証情報に到達する手法とは。
イラン vs. 米国・イスラエル　現実味を増す“サイバー報復”の連鎖【動画あり】
中東で続く軍事衝突は、原油価格や物流だけの問題ではない。イランや米国、イスラエルは長年にわたり“見えない戦争”をサイバー空間で繰り広げてきた。今、その火種はサプライチェーンやVPN機器を通じ、日本企業のネットワークにも静かに近づき始めている。
EDRを“窒息”させる攻撃ツールが公開　Windows標準搭載のQoSを利用
「EDRさえ導入すれば安心」という前提を揺るがす新たな回避手法が登場した。Windowsに標準搭載されたQoS機能を使い、EDRを“気付かれずに息切れ”させるものだ。手法の詳細と防御策を見ていこう。
世界中のWebサーバが影響　Apacheが危険な脆弱性を一斉修正
Apache HTTP Serverに大規模な修正が入った。最新版ではHTTP/2処理をはじめ、プロキシやSSL、認証機能など広範囲に及ぶ脆弱性に対処している。サービス停止やメモリ破壊につながる恐れがある問題も含まれていたため急ぎ修正してほしい。
5週間で340超の企業が被害に　Microsoft 365のアクセスを奪う新型フィッシングに注意
MFAを突破されていないのに、なぜ電子メールやクラウドが“乗っ取られる”のか。5週間で340超の企業が被害に遭ったMicrosoft 365を狙う新型フィッシングは、パスワードではなく「OAuth同意」を悪用していたという。