ここ数カ月、Claudeシリーズでは中位モデルのSonnet 4.5が、上位モデルであるOpus 4.1のコーディング性能を一時的に上回る状況が続いていた。その“逆転状態”が今回、Anthropic自身の手によって解消された。Anthropicは2025年11月24日（米国時間）、最上位のフラッグシップモデル「Claude Opus 4.5」を公開したためだ。

Opus 4.5は、特にプロ開発者向けに再強化された最新モデルであり、コーディング性能をシリーズ最上位へと押し上げた。長時間の処理や多段階の複雑なタスクでも安定して動作し、前世代から全体的に性能が底上げされている。

ソフトウェアエンジニアリング分野のベンチマーク（SWE-bench Verified）におけるコーディング性能比較（公式発表ページより引用）

横軸は主要AIモデル（例：Claude Opus 4.5、Sonnet 4.5、Opus 4.1、Gemini 3 Pro、GPT-5.1など）を示し、縦軸は「課題を正しく解決できた割合（％）」を表している。上に行くほどコード生成や修正タスクの精度が高いことを意味する。色付きのバーはClaudeシリーズ（Opus／Sonnet）を示しており、Opus 4.5は80.9％と高い精度を記録した。シリーズ内ではSonnet 4.5（77.2％）や前世代の上位モデルOpus 4.1（74.5％）を上回り、提示されている比較範囲においてGemini 3 Pro（76.2％）やGPT-5.1（76.3％）よりも高いスコアとなっている。



Opus 4.5の大きな進化は、単に回答精度が向上したことではなく、長時間タスクを破綻（はたん）させない基盤機能がさらに強化された点にある。特に、エフォート制御（effort control：思考量を調整する仕組み）、高度なツール利用、そして「コンテキスト圧縮」の考え方が取り入れられている点が象徴的だ。

なお、コンテキスト圧縮（context compaction）とは、AIが保持する作業メモリを自動的に整理し、重要な文脈だけを残して処理を継続するための仕組みである。長時間の作業ログや複数ステップにわたるタスクでも情報が膨張しにくく、途中で文脈が失われることを避けられるため、とりわけ大規模な開発作業との相性が良い。

この仕組みは、コーディングやデバッグだけでなく、Claudeアプリ内での表計算やスライド作成といった連続作業でも威力を発揮する。文脈を途切れさせずに処理を続けられるため、より実用的なエージェントとして振る舞えるようになったのである。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の動きを手がかりに技術の“今”をもう少し深く眺めてみたい。