検索
連載

Claude Opus 4.6登場 考えるコストの自動最適化と、AIが組織で動く「エージェントチーム」Deep Insider Brief ― 技術の“今”にひと言コメント

Claude Opus 4.6は、単なる性能更新にとどまらず、AIの振る舞いや使われ方に変化を感じさせるアップデートだった。本稿では、ベンチマーク結果と実務での使い勝手を手掛かりに、そのポイントを整理する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena
「Deep Insider Brief ― 技術の“今”にひと言コメント」のインデックス

連載目次

 Anthropicは、同社のClaudeシリーズにおいて、これまでソフトウェア開発向けの能力を重点的に磨いてきた。一方で、最近はエージェント機能(例:Cowork)や業務支援機能の拡張(例:Claude in ExcelやClaude in PowerPoint)を通じて、開発者向けにとどまらない用途にも適用範囲を広げ始めている。

 その流れの中で、2026年2月5日(米国時間)に公開された最新の最上位モデルが「Claude Opus 4.6」である。コード生成の正確さに加え、作業手順を組み立てる力や、問題の原因を整理して切り分ける力など、実務で重要になる能力が全体的に底上げされている。

主要ベンチマークにおけるClaude Opus 4.6と他モデルの比較(公式発表ページをスクリーンキャプチャして引用)
主要ベンチマークにおけるClaude Opus 4.6と他モデルの比較(公式発表ページをスクリーンキャプチャして引用)
各行は異なる評価指標(ベンチマーク)を示しており、左端の「Opus 4.6」は多くの項目で競合モデルを上回っている。
例えば、ターミナル操作を含むAIエージェント型のコーディング作業を評価する「Terminal-Bench 2.0」(最上段)では、Opus 4.6は65.4%を記録した。前世代のOpus 4.5(59.8%)やSonnet 4.5(51.0%)を上回っている。
加えて、実際のソフトウェア開発タスクに近い修正問題を扱う「SWE-bench Verified」(2段目)では、Opus 4.6は80.8%となっており、Opus 4.5(80.9%)とほぼ同水準である。数値上はわずかに下回っているものの、実務的なコード修正能力については引き続き高い水準を維持している。

 性能面の進化を端的に示すのが、上の図にまとめられた各種ベンチマーク(性能指標)での結果である。中でも注目したいのが、「ARC-AGI-2」と呼ばれる未知問題の推論テストだ。事前に学習したパターンが使えない課題が出題されるこのテストで、Opus 4.6は68.8%という高い正答率を記録した。ARC-AGI-2の大幅なスコア向上は、Claudeが既存知識の適用だけでなく、その場で考え方を組み立てる方向へ進化し始めた可能性を示している。

 今回の発表には、この他にも注目すべき点が幾つも含まれている(詳しくは後半で触れる)。例えば、AIがタスクの難易度に応じて思考の深さを自動調整するAdaptive Thinking(アダプティブ・シンキング:適応的思考)や、複数のエージェントが役割分担して協働するAgent Teams(エージェントチーム)といった新機能が導入された。これらはいずれも、AIを用いた作業をより安定的かつ効率的に進めるための仕組みとして大いに期待できる。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の動きを手掛かりに技術の“今”をもう少し深く眺めてみたい。


一色政彦

 Deep Insider編集長の一色です。こんにちは。

 私が今回のリリースで特に重要だと感じたのは、コンテキストウィンドウの拡張です。前バージョンのOpus 4.5では、コンテキストウィンドウは基本的に約20万200K)トークンでしたが、今回のOpus 4.6では、用途や条件に応じて最大100万1M)トークンに対応する仕組み(β版)が用意されました。これにより、長文や大規模なコードを一貫したコンテキスト(文脈)のまま処理できる能力が強化されています。

 一見すると地味な変更に見えるかもしれませんが、実務では非常に重要なポイントです。Claude Codeなどを使っていて、途中で何度もコンテキストをリセットせざるを得なかった経験がある人は多いのではないでしょうか。コンテキストが足りないために、モデル本来のコーディング性能を十分に引き出せなかった場面もあったと思います。Opus 4.6では、こうした制約が緩和され、複雑な実装でも文脈を保ったまま作業を進められる可能性が高まっています。

 一方で難点もあります。Opusは最上位モデルということもあり、Sonnetと比べるとコストが高めです。私はProプランを契約していますが、正直なところMaxでないとあまり余裕を持って使えないと感じています。少し集中的に使うと、すぐに上限に達してしまいます。さらに、今回追加されたエージェントチーム機能のように、複数のエージェントを同時に動かす使い方をすると、Maxプランでも足りなくなりそうです。便利になる一方で、財布への負担も増えそうですね。


 開発者は既に、Anthropic公式APIに加え、GitHub CopilotやCursor、OpenRouterなどの主要なAI開発プラットフォームを通じて、Opus 4.6を利用できる環境が整っている。

 今回のアップデート内容には、他にも多数の機能が含まれている。それらについて全てを文章で説明すると長くなるため、以下では箇条書きでコンパクトに整理する。

Opus 4.6、その他の更新内容

新機能と機能改善

  • Adaptive Thinking(適応的思考): タスクの難易度や複雑さに応じて、AIが内部的な思考量を自動調整する仕組みを導入した。APIではeffortパラメーター(lowmediumhighmax)を指定することで、応答速度・コスト・思考の深さのバランスを制御できる
  • Agent Teams(エージェントチーム): Claude Code上で、UXデザイナーやアーキテクト、テスターなど、役割を持った複数のエージェントを編成し、並列かつ協調的に作業を進められる機能を追加した。単一画面内でエージェントの管理と作業進行を行える点が特徴
  • 出力トークン上限の拡張: 一度に生成できる出力トークン数が最大128Kトークンに拡張された。これにより、長大なコードやドキュメントを途中で分割せずに生成しやすくなった
  • エージェント型タスクと検索能力の強化: Agentic Search(エージェンティック検索)を通じて、ブラウザ操作を含む情報収集や調査タスクへの対応力が向上した。コーディングに限らず、業務調査や実務支援用途での活用範囲が広がっている
  • 長時間タスク向けの文脈管理(Compaction): APIでは、会話や作業履歴を自動的に要約/圧縮するcompaction(コンパクション:圧縮)の仕組みが導入され、長時間にわたるタスクでもコンテキスト(文脈)を維持しやすくなっている

プロダクト更新

  • Claude in Excel: Microsoft ExcelでClaudeが使える拡張機能を機能強化し、表計算やデータ整理タスクでの実用性を向上させた
  • Claude in PowerPoint: Microsoft PowerPointでClaudeが使える拡張機能を研究プレビューとして提供。資料作成やスライド構成検討への活用を可能にした。現在はMaxプランのみで利用可能

Anthropic Claude APIの価格表(Opus 4.6利用時)

 現時点では、基本単価は前バージョンと同水準となっている。

  • 100万トークン当たりの料金:
    • 入力トークン(20万トークン以下): 5.00ドル
    • 出力トークン(20万トークン以下): 25.00ドル
    • 入力トークン(20万トークン超): 10.00ドル
    • 出力トークン(20万トークン超): 37.50ドル
  • プロンプトキャッシュ利用時の料金(100万トークン当たり):
    • 書き込み(20万トークン以下): 6.25ドル
    • 読み出し(20万トークン以下): 0.50ドル
    • 書き込み(20万トークン超): 12.50ドル
    • 読み出し(20万トークン超): 1.00ドル
    • プロンプトキャッシュとは、指示文などの入力(プロンプト)をキャッシュして再利用する仕組み。キャッシュされた入力(Cached input)は再計算が不要なため、通常の入力より低コストで利用できる

 価格は変更される可能性があるため、利用の際はAnthropic公式ドキュメント「Pricing」を必ず確認してほしい。

「Deep Insider Brief ― 技術の“今”にひと言コメント」のインデックス

Deep Insider Brief ― 技術の“今”にひと言コメント

Copyright© Digital Advantage Corp. All Rights Reserved.

[an error occurred while processing this directive]
ページトップに戻る