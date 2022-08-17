この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

ここ数年のClaudeは、ただ賢くなるだけでなく「AIにどこまで任せられるか」を広げてきたシリーズである。長時間タスクやPC操作支援といった“実務の持久力”が積み上がっていく流れの中、2026年2月17日（米国時間）に登場したのが「Claude Sonnet 4.6」だ。

その変化が最もはっきり表れているのが、Computer Use（コンピュータ操作能力）の伸びである。次のグラフが示すように、その性能はSonnet 3.5以降、ほぼ直線的に向上してきた。

Claudeシリーズにおける「Computer Use（コンピュータ利用）」能力の推移（Anthropic公式発表ページより引用）

縦軸はスコア（％）、横軸はリリース時期を示す。「OSWorld」と「OSWorld-Verified」ベンチマーク（いずれもPC操作を伴うタスクの評価指標）の推移をまとめたグラフであり、Claude SonnetはSonnet 3.5（new）の14.9％からSonnet 4.6の72.5％まで一貫してスコアを伸ばしている。詳細な意味については本文で解説する。



Computer Useは、AIがブラウザを開き、アプリケーションを操作しながら作業を進められるかを測る指標だ。ここで注目したいのは、AIの「できることの質」が変わり始めている点である。スコアの上昇は、AIが「質問に答える存在」から、「画面を操作しながら仕事を進める存在」へ移行しつつあることを示している。

しかも、そのComputer Use性能が最上位モデルであるOpus 4.6とほぼ同水準に到達している点にも注目したい。PC操作能力を評価するOSWorld-Verifiedベンチマークでは、Sonnet 4.6が72.5％、Opus 4.6が72.7％と差はわずかだ。さらに、実務的なコード修正能力を測るSWE-bench Verifiedベンチマークでも、Sonnet 4.6は79.6％、Opus 4.6は80.8％とほぼ肩を並べている。用途によっては“Opus級の実力”を有しているといえる。

このようにSonnet 4.6は、わずか12日前に発表された最上位モデル「Claude Opus 4.6」で示された方向性を、普段使いできる価格帯へ持ち込んだモデルである。Opus級の推論能力とエージェント的な働き（AIが自律的に作業を進める仕組み）を備えながら、前世代のSonnetと同じ価格で利用できる。AIエージェントを日常の開発フローに組み込む現実性も、一気に高まったといえるだろう。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の動きを手掛かりに技術の“今”をもう少し深く眺めてみたい。