検索
連載

Claude Sonnet 4.6登場 Opus級の知能が“普段使い”の価格に、AIが「作業する存在」へDeep Insider Brief ― 技術の“今”にひと言コメント

最上位モデルOpus 4.6に迫る性能と、従来Sonnet水準の価格を両立したClaude Sonnet 4.6。本稿では主要ベンチマークや新機能を軸にその特徴を整理しつつ、編集長コメントでは巨大コンテキストや実務での活用可能性についても開発者視点から考察する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena
「Deep Insider Brief ― 技術の“今”にひと言コメント」のインデックス

連載目次

 ここ数年のClaudeは、ただ賢くなるだけでなく「AIにどこまで任せられるか」を広げてきたシリーズである。長時間タスクやPC操作支援といった“実務の持久力”が積み上がっていく流れの中、2026年2月17日(米国時間)に登場したのが「Claude Sonnet 4.6」だ。

 その変化が最もはっきり表れているのが、Computer Use(コンピュータ操作能力)の伸びである。次のグラフが示すように、その性能はSonnet 3.5以降、ほぼ直線的に向上してきた。

Claudeシリーズにおける「Computer Use(コンピュータ利用)」能力の推移(Anthropic公式発表ページより引用)
Claudeシリーズにおける「Computer Use(コンピュータ利用)」能力の推移(Anthropic公式発表ページより引用)
縦軸はスコア(%)、横軸はリリース時期を示す。「OSWorld」と「OSWorld-Verified」ベンチマーク(いずれもPC操作を伴うタスクの評価指標)の推移をまとめたグラフであり、Claude SonnetはSonnet 3.5(new)の14.9%からSonnet 4.6の72.5%まで一貫してスコアを伸ばしている。詳細な意味については本文で解説する。

 Computer Useは、AIがブラウザを開き、アプリケーションを操作しながら作業を進められるかを測る指標だ。ここで注目したいのは、AIの「できることの質」が変わり始めている点である。スコアの上昇は、AIが「質問に答える存在」から、「画面を操作しながら仕事を進める存在」へ移行しつつあることを示している。

 しかも、そのComputer Use性能が最上位モデルであるOpus 4.6とほぼ同水準に到達している点にも注目したい。PC操作能力を評価するOSWorld-Verifiedベンチマークでは、Sonnet 4.6が72.5%、Opus 4.6が72.7%と差はわずかだ。さらに、実務的なコード修正能力を測るSWE-bench Verifiedベンチマークでも、Sonnet 4.6は79.6%、Opus 4.6は80.8%とほぼ肩を並べている。用途によっては“Opus級の実力”を有しているといえる。

 このようにSonnet 4.6は、わずか12日前に発表された最上位モデル「Claude Opus 4.6」で示された方向性を、普段使いできる価格帯へ持ち込んだモデルである。Opus級の推論能力とエージェント的な働き(AIが自律的に作業を進める仕組み)を備えながら、前世代のSonnetと同じ価格で利用できる。AIエージェントを日常の開発フローに組み込む現実性も、一気に高まったといえるだろう。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の動きを手掛かりに技術の“今”をもう少し深く眺めてみたい。


一色政彦

 Deep Insider編集長の一色です。こんにちは。

 前回のOpus 4.6でも触れましたが、Sonnet 4.6でも用途や条件に応じて最大100万(1M)トークンのコンテキストに対応する仕組み(β版)が用意されています。長文の資料や大規模なコードをまとめて扱えるため、文脈(コンテキスト)を維持したまま作業を進めやすくなりました。

 大量の情報を一度に入力できるようになると、「必要な情報は全部入れてしまえばよい」という発想も現実味を帯びてきます。そう考えると、RAG(検索拡張生成)のように外部ナレッジベースを用意する必然性は、用途によっては弱まっていくのかもしれません。

 正直なところ、時間的な余裕がなくSonnet 4.6をまだ十分に使い込めていません。ただ、YouTubeなどの検証動画や開発者のコメントを見る限り、Webアプリケーションのフロントエンド開発で“バイブコーディング”する用途ではかなり評価が高いようです。

 特に、2日後に登場したGemini 3.1 Proと比較されることが多いのですが、GeminiがシンプルなUI(ユーザーインタフェース)にまとまりやすいのに対し、Sonnet 4.6は細かなUIディテールまで作り込む傾向があるといわれています。

 私は最近Webアプリケーションをあまり作っていないため実際には試せていませんが、フロントエンド開発者の方はぜひ触ってみてください。完成度を重視する開発スタイルには特に向いているモデルだと思います。

 一方で、思考時間が長くレスポンス速度は必ずしも速いとはいえず、まれに不可解な“うっかりミス”が起きるという声もあります。このあたりは、今後もう少し実際に触りながら確かめていきたいところですね。


 Sonnet 4.6は、Anthropicの公式チャットサービス「claude.ai」において、無料ユーザーを含む幅広いプランで既に利用可能となっている。開発者向けにはAnthropic公式APIの他、Amazon BedrockやGoogle Cloud Vertex AIといった主要クラウド環境でも順次提供が進められている。

 さらに、GitHub CopilotやAI開発環境Cursorでもモデルとして利用可能となっており、日常的なコーディング支援モデルとしての採用が進んでいる。加えて、OpenRouterなどのAPIプロバイダー経由でも利用できるため、既に多くの開発者が実務環境で選択できる状態になっている。

 その他の主な更新内容は以下の通りだ。

Sonnet 4.6における、その他の更新内容

新機能と機能改善

  • コーディング能力の強化: 大規模コードベース検索や複数ファイル修正、PR(プルリクエスト)レビューなど実務開発への対応力を改善。ベンチマーク結果については前述した
  • 長時間タスクへの対応改善: 会話履歴や作業文脈の保持能力が向上。継続的に問題解決を進めるエージェント型作業(AIが段階的にタスクを処理する仕組み)の安定性が強化された
  • Adaptive Thinking(適応的思考): 4.6世代で強化された思考量の自動調整機能。APIではeffort設定により応答速度と推論精度のバランスを制御できる
  • 未知課題への推論力向上: ARC-AGI-2スコアは前モデルの13.6%から58.3%へ大幅上昇。未知の論理問題や推論課題への対応力が強化された
  • プロンプトキャッシュの最適化: 長大な入力を再利用できるキャッシュ機能を強化。大規模入力を扱う際には再利用時のコストを最大約90%削減できる

Anthropic Claude APIの価格表(Sonnet 4.6利用時)

 基本単価はSonnet 4.5と同水準となっている。なお、Opus 4.6と比較すると、入力・出力ともに約1.7分の1の価格に抑えられている。

  • 100万トークン当たりの料金:
    • 入力トークン(20万トークン以下): 3.00ドル
    • 入力トークン(20万トークン超): 6.00ドル
    • 出力トークン(20万トークン以下): 15.00ドル
    • 出力トークン(20万トークン超): 22.50ドル
  • プロンプトキャッシュ利用時の料金(100万トークン当たり):
    • 書き込み(20万トークン以下): 3.75ドル
    • 読み出し(20万トークン以下): 0.30ドル
    • 書き込み(20万トークン超): 7.50ドル
    • 読み出し(20万トークン超): 0.60ドル
    • プロンプトキャッシュとは、指示文などの入力(プロンプト)をキャッシュして再利用する仕組み。キャッシュされた入力(Cached input)は再計算が不要なため、通常の入力より低コストで利用できる

 価格は変更される可能性があるため、利用の際はAnthropic公式ドキュメント「Pricing」を必ず確認してほしい。

「Deep Insider Brief ― 技術の“今”にひと言コメント」のインデックス

Deep Insider Brief ― 技術の“今”にひと言コメント

Copyright© Digital Advantage Corp. All Rights Reserved.

[an error occurred while processing this directive]
ページトップに戻る