この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

連載目次

Anthropicは、同社のClaudeシリーズにおいて、これまでソフトウェア開発向けの能力を重点的に磨いてきた。一方で、最近はエージェント機能（例：Cowork）や業務支援機能の拡張（例：Claude in ExcelやClaude in PowerPoint）を通じて、開発者向けにとどまらない用途にも適用範囲を広げ始めている。

その流れの中で、2026年2月5日（米国時間）に公開された最新の最上位モデルが「Claude Opus 4.6」である。コード生成の正確さに加え、作業手順を組み立てる力や、問題の原因を整理して切り分ける力など、実務で重要になる能力が全体的に底上げされている。

主要ベンチマークにおけるClaude Opus 4.6と他モデルの比較（公式発表ページをスクリーンキャプチャして引用）

各行は異なる評価指標（ベンチマーク）を示しており、左端の「Opus 4.6」は多くの項目で競合モデルを上回っている。

例えば、ターミナル操作を含むAIエージェント型のコーディング作業を評価する「Terminal-Bench 2.0」（最上段）では、Opus 4.6は65.4％を記録した。前世代のOpus 4.5（59.8％）やSonnet 4.5（51.0％）を上回っている。

加えて、実際のソフトウェア開発タスクに近い修正問題を扱う「SWE-bench Verified」（2段目）では、Opus 4.6は80.8％となっており、Opus 4.5（80.9％）とほぼ同水準である。数値上はわずかに下回っているものの、実務的なコード修正能力については引き続き高い水準を維持している。



性能面の進化を端的に示すのが、上の図にまとめられた各種ベンチマーク（性能指標）での結果である。中でも注目したいのが、「ARC-AGI-2」と呼ばれる未知問題の推論テストだ。事前に学習したパターンが使えない課題が出題されるこのテストで、Opus 4.6は68.8％という高い正答率を記録した。ARC-AGI-2の大幅なスコア向上は、Claudeが既存知識の適用だけでなく、その場で考え方を組み立てる方向へ進化し始めた可能性を示している。

今回の発表には、この他にも注目すべき点が幾つも含まれている（詳しくは後半で触れる）。例えば、AIがタスクの難易度に応じて思考の深さを自動調整するAdaptive Thinking（アダプティブ・シンキング：適応的思考）や、複数のエージェントが役割分担して協働するAgent Teams（エージェントチーム）といった新機能が導入された。これらはいずれも、AIを用いた作業をより安定的かつ効率的に進めるための仕組みとして大いに期待できる。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の動きを手掛かりに技術の“今”をもう少し深く眺めてみたい。