検索
ニュース

Claude Mythosのヤバすぎる実力を検証 脆弱性を連結して攻撃経路を生成一般公開見送りも納得

Cloudflareは、Anthropicの新型LLM「Claude Mythos Preview」を自社インフラで動かして検証した。同社が「単純な性能向上ではなく、脆弱性探索ツールとして別種の能力を備えた」と評価するこのAIモデルの実力を細かくみていこう。

Share
Tweet
LINE
Hatena

 Cloudflareは2026年5月18日(米国時間)、Anthropicのセキュリティ向け大規模言語モデル(LLM)「Claude Mythos Preview」を自社インフラで検証したと発表した。

 今回の検証は、Anthropicが主導で進めているAIを活用したセキュリティの業界横断的な取り組み「Project Glasswing」の一環で、Claude Mythos Previewによる脆弱(ぜいじゃく)性調査の成果を公表している。

 数カ月間にわたって50以上の自社リポジトリーに同モデルを適用し、Claude Mythos Previewの脆弱性検知の能力と、将来的に攻撃者が悪用する可能性のあるサイバー機能について調査している。

もはや熟練研究者の域 Mythosの性能を実際に検証

 Claude Mythos Previewは、従来の汎用(はんよう)フロンティアモデルとは異なる性質を持っている。Cloudflareは「単純な性能向上ではなく、脆弱性探索ツールとして別種の能力を備えた」と評価した。特に注目した機能として「Exploit chain construction」と「Proof generation」を挙げている。

 Exploit chain constructionは、複数の脆弱性を組み合わせて侵害経路を構築する機能だ。実際の攻撃では単体の脆弱性を悪用するだけで侵害できるケースは少なく、小規模な攻撃要素を連結して権限を窃取する。Cloudflareは、解放後使用(use-after-free)の脆弱性を任意読み書きに発展させ、制御フロー奪取やROP(Return Oriented Programming)チェーン構築に結び付ける推論能力を例示した。推論内容は、自動スキャナー出力より熟練研究者の分析に近かったとしている。

 Proof generationは、発見した脆弱性が攻撃可能かどうかをPoC(概念実証)コードの自動生成やコンパイル、実行によって証明する機能だ。Claude Mythos Previewは、不具合を引き起こすコードを書き、隔離環境でコンパイル及び実行する。失敗時には結果を読み取り、仮説修正後には再試行する。Cloudflareは、脆弱性候補の提示だけでなく、悪用の可能性確認まで自律処理できる点を高く評価した。

他AIモデルと比較して見えたメリット/デメリット

 Cloudflareは、他の先端AIモデルも同一ハーネス環境で比較した。複数のAIモデルが同種の脆弱性を発見したが、多くは脆弱性同士を結合して侵害経路に発展させる段階で停止したという。Claude Mythos Previewは、従来なら優先度が低いまま残存した軽微な不具合群を結び付け、深刻な侵害に変換できた点が大きな差異だった。

 一方で安全制御面では不安定な部分もあった。Project Glasswing版のClaude Mythos Previewには、一般提供モデルに搭載される予定の追加保護機能が含まれていなかったという。AIモデルは自主的に一部の要求を拒否する挙動を示したが、同一内容でも提示方法や実行環境条件によって応答が変化した。Cloudflareは、同じコード解析要求を拒否後、環境変更後には受け入れた例や、重大なメモリ関連不具合を確認後、実証コード生成だけ拒否した例を挙げた。同社は「確率的挙動に左右されるため、自発的ガードレールのみで安全境界を構成するのは困難だ」と指摘している。

 脆弱性探索では「signal-to-noise problem」も大きな課題となった。AIモデルは脆弱性が存在しない場合でも候補を大量出力する傾向を持つ。「possibly」「potentially」など曖昧(あいまい)な表現を含む報告が多数発生した結果、人手による確認の負荷が増加した。Cloudflareは、CやC++のようなメモリ安全性を持たない言語で誤検知率が高まる傾向を確認した。Claude Mythos PreviewはPoC付きの報告比率が高く、修正可否判断を容易にしたが、過剰な報告の抑制工程は依然として必要だ。

 Cloudflareは当初、汎用コーディングエージェントに巨大リポジトリー全体を解析させる手法を試した。しかし有効な網羅性を得られなかったという。脆弱性探索は狭い対象に集中する並列作業型であり、単一エージェントでは文脈容量制限や探索効率低下が発生するのが理由だ。

 そこでCloudflareは、複数エージェントを組み合わせた独自ハーネスを構築した。最初に「Recon」でリポジトリー全体解析とアーキテクチャ文書生成を実施する。その後、「Hunt」で脆弱性種別単位の探索を並列実施し、「Validate」で別エージェントが結果を反証する。「Gapfill」で未調査領域を再投入し、「Dedupe」で重複統合を行う。「Trace」では外部入力から脆弱性到達可能かを判定し、「Feedback」で探索内容を次回調査に反映する。最終段階「Report」では構造化レポート生成とAPI投入を実施した。

 Cloudflareは「攻撃側の分析速度短縮に対抗するには、単純な修正迅速化のみでは不足する」と指摘する。CVE公開から2時間以内の本番修正を目標とする組織も存在するが、回帰試験の省略は別障害発生危険を高める。Cloudflareは、前段防御による攻撃遮断や権限分離設計、全環境同時修正展開能力など、侵害成立を困難化する構造設計が必要だと指摘した。

〜記者の目:ニュースをちょっと深掘り〜

CloudflareのClaude Mythos Preview検証で驚いたのは、AIが“攻撃者の思考順序”を獲得し始めている点だ。従来のAIによる脆弱性検出は、静的解析や既知パターン抽出の延長線上にあった。しかしClaude Mythos Previewが示したのは、単体では価値の低い脆弱性を組み合わせ、「どう侵害成立まで持ち込むか」を推論する能力だ。これは単なるコード生成の補助ではなく、攻撃シナリオ構築の自動化だ。

PoC生成から失敗分析、再試行までを自律的に回し始めた点も興味深い。これまで高度なサイバー攻撃には、熟練研究者の経験や試行錯誤が必要だった。だがAIがこの領域に到達すれば、“攻撃の民主化”が一気に進む可能性がある。国家が支援する脅威アクターやランサムウェアグループだけが持っていた能力が、より低コストかつ高速に複製されるからだ。一般公開が見送られたのも納得である。

この検証でもう一つ見逃せないのが、AIガードレールの問題だ。Cloudflareが指摘したように、同じ要求でも環境条件で拒否したり受け入れたりする挙動は極めて危うい。AIの安全制御は、まだ確率論的な部分に強く依存している。だが攻撃者は、拒否されれば別条件を試すだけだ。つまり、防御側が期待する「AIが勝手に止まる」は、長期的には成立しない可能性が高い。

AIによるセキュリティ競争は今後「AIを使うかどうか」ではなく、「AI前提でどんな構造を作るか」の段階に進む。Cloudflareの報告は、その転換点を示す象徴的な事例だと言えるだろう。(田渕聖人)


Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る