Anthropic、Mythos級モデル「Claude Fable 5」を提供開始 5000万行のRubyコード移行を2カ月から1日に:安全対策を一部解除した「Claude Mythos 5」は限定提供
Anthropicは、「Claude Mythos Preview」と同等以上の性能に安全対策を加えた最新AIモデル「Claude Fable 5」の一般提供を開始した。コーディングや専門的な実務などで過去最高水準の性能をうたう。同時に、「Project Glasswing」を通じて、安全対策の一部を解除した「Claude Mythos 5」を限定提供する。
「Claude Mythos Preview」の発表以降、公開されているモデルの中でも最先端の性能を持つ「フロンティアAI」への対策を巡る議論が加速している。日本政府や金融機関がフロンティアAI対策を急ぐ中、Anthropicは2026年6月9日(米国時間、以下同)、Claude Mythos Previewと同等レベル以上の性能を持つ新モデル「Claude Fable 5」の一般提供を開始した。
同時に、安全対策の制限を一部解除した「Claude Mythos 5」を、米政府と連携する「Project Glasswing」を通じ、サイバー防御組織や重要インフラ事業者に限定して提供する。
Fable 5とMythos 5は同じ基盤モデルを使用する。主な違いは安全対策にある。Fable 5は、サイバー攻撃や生物・化学、競合モデルを訓練するための「蒸留」に関係する可能性がある指示を専用の分類器で検知する。検知した場合、Fable 5ではなく、次に性能が高い「Claude Opus 4.8」が回答する。
Anthropicによると、こうした切り替えが発生するのは全セッションの5%未満だという。95%以上のセッションでは、Fable 5とMythos 5は実質的に同じ性能を発揮するとしている。
コード移行の工数を数カ月から1日に 「ほとんどの能力で既存モデルを上回る」
Anthropicが公開したベンチマーク比較によると、Fable 5はコーディングや知識労働、画像理解、空間推論、法務、生物学などほとんどの評価項目で既存モデルを上回った。
現実のコードベースで発生した問題の修正能力を図るベンチマーク「SWE-bench Pro」では80.3%を記録した。「Claude Opus 4.8」は69.2%、「GPT-5.5」は58.6%、「Gemini 3.1 Pro」は54.2%だ。SWE-bench Proは、複数ファイルにまたがる変更など、人間のエンジニアでも数時間から数日を要する長期タスクが含まれている。
コードが動くかどうかだけでなく、プロジェクトへマージできる品質かどうかも評価する「FrontierCode Diamond」では29.3%を記録した。Opus 4.8の13.4%を2倍以上上回っている。GPT-5.5は5.7%だった。
FrontierCodeは、機能の正しさに加え、テストの品質、変更範囲の適切さ、既存コードへの影響、可読性、プロジェクトの作法に従っているかなどを評価する。Anthropicは「Fable 5は従来モデルより少ないトークンでも高い能力を示すことができる」と述べている。
知識労働や画像理解でも優位?
ターミナル上の現実的な作業を評価するベンチマーク「Terminal-Bench 2.1」は88.0%を記録。Opus 4.8の82.7%、Codex CLIを使ったGPT-5.5の83.4%、Gemini CLIを使ったGemini 3.1 Proの70.7%を上回った。
経済的価値のある実務タスクを扱う「GDPval-AA」では1932点を記録し、Opus 4.8の1890点、GPT-5.5の1769点を上回った。GDPvalは、金融、法律、医療、製造など米国の主要産業に関連する職種において、調査資料や分析結果といった実務の成果物の品質を測るベンチマークだ。単純な知識問題ではなく、複数の資料から情報を読み取り、専門家が利用できる形にまとめられるかどうかが評価される。画像を含むGDPvalの評価でも、Fable 5は29.8%を記録し、GPT-5.5の24.9%、Opus 4.8の22.5%を上回った。
室内写真から間取り図を復元する空間推論ベンチマーク「Blueprint-Bench 2」は38.6%だった。Opus 4.8の14.5%から大幅に向上し、GPT-5.5の36.2%も上回った。Fable 5は科学論文の複雑な図表から数値を読み取ったり、画面の画像だけを基にWebアプリを再構築したりできるとしている。
一方、PC操作を評価する「OSWorld-Verified」では85.0%で、Claude Mythos Previewの85.4%をわずかに下回った。
数学、自然科学、人文科学などの専門的な難問を収録した「Humanity's Last Exam」では、外部ツールを使わない条件で59.0%を記録した。Opus 4.8は49.8%、Gemini 3.1 Proは44.4%、GPT-5.5は41.4%だった。ツールを利用できる条件では64.5%となり、Mythos Previewの64.7%をわずかに下回ったものの、Opus 4.8の57.9%を上回った。
Humanity's Last Examは、専門家が作成した約3000問から成り、検索だけでは簡単に回答できない問題が含まれている。ただし、この評価が測るのは主に検証可能な専門知識であり、このベンチマークの得点だけで自律的な研究能力やAGI(汎用〈はんよう〉人工知能)を証明できるわけではない点には留意する必要がある。
決済大手Stripeでは「2カ月分の移行作業を1日に短縮」
先行利用した決済大手Stripeは、5000万行規模のRubyコードベースを対象とした移行作業をFable 5に実施させた。人間のチームでは2カ月以上かかると見込まれた作業を、Fable 5は1日で完了したという。あくまで個別事例としつつも、「長期間にわたる自律的な作業能力を示す例」として紹介している。
Fable 5の画像認識能力を示す例としてAnthropicは、画面のスクリーンショットのみで「ポケットモンスター ファイアレッド」をクリアした他、工場建設ゲーム「Factorio」を自律的にプレイさせたデモを紹介している。
創薬では作業を約10倍に高速化
生命科学分野では、Mythos 5を使ったタンパク質設計によって、創薬工程の一部を約10倍高速化したという。タンパク質設計やバイオインフォマティクスのツールを与えた試験では、結合部位の選択、設計ツールの実行、失敗からの復旧までを人間の支援なしで実施。評価した14の標的のうち9つで、創薬候補として有望な結果を得たとしている。
分子生物学の分野では、Mythos 5が生成した科学的仮説の約80%が、既存のOpusモデルの仮説よりも専門家の支持を集めた。Mythos 5が提案した大腸菌タンパク質の新たなメカニズムは、独立した別の研究機関によって事実だと裏付けられている。
数百万個の細胞と138種の動物を対象としたゲノム研究では、1週間以上にわたって自律的に作業を継続した。人間の大まかな指示だけで独自の機械学習(ML)モデルを設計・訓練し、科学誌『Science』に掲載された既存モデルを上回る性能を実証したという。
同社は詳しい研究成果を、今後数カ月以内に公開する計画だ。
高性能化に伴い安全策を強化
Anthropicは、Mythosクラスのモデルがソフトウェアの脆弱(ぜいじゃく)性発見や攻撃の自動化で高い能力を持つことから、一般公開には新たな安全策が必要だったと説明する。
「正当な研究目的の依頼が誤って制限される可能性がある。無害な依頼を検知する『偽陽性』が発生する可能性もある」(Anthropic)
外部参加者を含む1000時間以上の試験では、「ユニバーサルジェイルブレイク」(あらゆる安全策を無効化できる汎用的な脱獄手法)は見つからなかったとしている。ただし、完全な脱獄対策は困難との認識も示している。
Fable 5およびMythos 5では、送受信される全ての通信データを原則30日間保持する。これには法人顧客も含まれる。保持したデータは新たなClaudeモデルの訓練には一切使用せず、安全対策以外の目的にも使用しない。データは原則として30日後に削除されるとしている。
6月22日までサブスクでも追加料金なし
Fable 5はClaude APIと従量課金型のEnterpriseプランで利用を開始できる。「Pro」「Max」「Team」「シート課金型Enterprise」の各プランでは、2026年6月22日まで追加料金なしで段階的に提供される。6月23日以降は一度標準プランから外れ、従量課金モデルとして提供される予定だ。
Claude APIでは「claude-fable-5」として利用できる。料金は入力100万トークン当たり10ドル、出力100万トークン当たり50ドル。Anthropicは最新モデルの需要を予測するのが難しいとしており、処理能力を確保でき次第、Fable 5を標準モデルとして再び提供する計画だ。
記者の目:
決済大手Stripeの「5000万行規模のコードベース移行期間短縮」やベンチマークで示されている「自律的な作業能力」は、マイグレーションやレガシーモダナイゼーションの遂行といった企業の主要課題に対する強力な解決策となり得る。一方で、業務への本格導入に当たってはガバナンスの再評価も急務となる。特に、Fable 5は送受信される全ての通信データが原則30日間保持される仕様となっている。Anthropicは「学習には利用しない」と明言しているものの、機密情報や個人情報の入力を防ぐための社内利用ガイドラインの改定や、監視体制の整備など、セキュリティリスクをコントロールする仕組みを設計、検討した上で展開することが求められる。
加えて、AIの利用コストとセーフガードの仕様にも留意したい。Fable 5はサイバーセキュリティに関連する問い合わせを分類器で検知すると、自動的に「Claude Opus 4.8」の応答へと切り替わる仕組みを備えている。そのため、OSやカーネルレベルに関する技術的な指示やサイバーセキュリティに関する指示をしようとすると、意図せずOpus 4.8へとルーティングされる可能性がある。Anthropicによれば、この切り替えが発生したセッションではOpusの価格が請求されるという。利用コストの最適化を検討する上では、全ての指示を無条件に最先端モデルにわたすのではなく、タスクの難易度や要件に応じてより軽量なモデルと動的に使い分ける「AI Gateway」などアーキテクチャ設計を柔軟に検討する必要がある。
またAnthropicは「数カ月以内により高性能なモデルが登場する」と予告している。これまでの生成AI開発を巡る動向を振り返れば、安全対策のないMythos級の「野良モデル」が広く公開される可能性もある。高度なサイバー攻撃の激化や脆弱性発見のハードルが劇的に下がる未来を見据え、これまでのセキュリティ対応態勢をAI前提に大きく見直すことが不可欠だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
中国によるClaude悪用サイバー攻撃をAnthropicが報告 どうAIをだましたのか?
Anthropicは、2025年9月に検知した「極めて高度なサイバースパイ活動」とそのサイバーセキュリティへの影響についてまとめたレポートを発表し、その概要を公式ブログで紹介した。
「COBOL人材がいない」、基幹システムのレガシー継承に向けた模索が進む
仕様が把握できない、他システムとの連携ができないなど、老朽化・陳腐化するレガシーシステムの移行需要が高まる一方、議論の対象になっているのがCOBOL人材の不足だ。その課題解決を模索する動きが目立っている。
「もはやコーディングの80%がAI」 元OpenAIカルパシー氏が警告する2026年の悪夢“スロポカリプス”
OpenAIの初期メンバーであるアンドレイ・カルパシー氏が、自身の開発スタイルが数週間で劇変した事実と、2026年に訪れる「低品質コンテンツの氾濫」についての見解を公開した。AI時代のエンジニアの在り方を問う重要な警鐘だ。
【無料】Anthropic公式「エージェントスキル入門」講座が公開 Claude Codeでの活用法が分かる22分の動画
Anthropicのオンライン講座「Anthropic Academy」に、Claude Codeの重要機能「エージェントスキル(Agent Skills)」を解説する新コースが追加された。約22分の動画で、AIエージェントの新しい開発スタイルを学べる講座の内容を整理し、技術の背景も含めて紹介する。
5大コーディングエージェントの比較で分かった「バイブコーディング」の落とし穴
サイバーセキュリティ企業のTenzaiは、「Cursor」「Claude Code」「OpenAI Codex」「Replit」「Devin」という5つの主要なコーディングエージェントを取り上げ、セキュアコーディング能力を比較した結果を公開した。
