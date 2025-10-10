連載目次

Anthropicは2025年9月30日、同社の主力AIモデル「Claude」シリーズの最新版「Claude Sonnet 4.5」を公開した。“世界最高のコーディングモデル”（the best coding model in the world）と豪語するほどの自信を見せており、実際に前世代を上回る精度を達成している。

ソフトウェアエンジニアリング分野のベンチマーク（SWE-bench Verified）におけるコーディング性能比較（公式発表ページより引用）

横軸は主要AIモデル（例：Claude Sonnet 4.5、GPT-5-Codex、Gemini 2.5 Proなど）を示し、縦軸は「課題を正しく解決できた割合（％）」を表している。上に行くほどコード生成や修正タスクの精度が高いことを意味する。色付きのバーはClaudeシリーズ（Sonnet／Opus）を示しており、Sonnet 4.5は77.2％で、前世代の上位モデルOpus 4.1の74.5％を上回る精度を達成した。なお、バー上部の「＊」印は、複数の思考経路を同時に実行する「並列テスト時計算（parallel test-time compute）」によって得られた最良スコアを示している。



実用面でも、複雑な多段階タスクにおいて30時間以上にわたり一貫した処理を維持できたことが確認されている。言い換えれば、非常に長い依存関係を壊さずに作業を継続できる安定性を備えており、大規模なコードベースでも粘り強く開発を進められることが期待される。

さらに注目すべきは、安全性の強化である。Sonnet 4.5はこれまでで最も“人間の意図や倫理観に沿うよう調整された”（aligned）モデルとして設計されており、性能だけでなく信頼性の面でも大きな進化を遂げた。

具体的には、欺瞞（ぎまん）、おべっか（過剰な従順）、支配を強めるような動き、妄想の助長、有害な指示プロンプトへの従属といった、人にとって望ましくない振る舞い（Misaligned behavior）を自動的に検出し評価するテスト（※Anthropic独自の評価フレームワークによる）において、主要モデルの中で最も低いスコア（＝問題行動が少ない）を記録した。また、安全対策（セーフガード）も強化されており、特に大量破壊兵器（化学兵器、生物兵器、放射能兵器、核《CBRN》兵器）に関連する潜在的に危険な入出力を検出するフィルターが設けられている。

もちろん、進化はこれだけにとどまらない。汎用（はんよう）モデルとしての思考力（reasoning）や数学的推論力が大幅に強化され、チャット形式での質問応答や複雑な問題解決タスクにも一層強くなっている。さらに、金融・法律・医療・STEM（科学・技術・工学・数学）といった専門分野での知識と論理展開力も向上し、「エージェント構築」や「コンピュータ操作」を含む多様な知的活動を支える“総合モデル”としての可能性を、いっそう押し広げている。

さて、今回のリリースには、先に述べた性能強化以外にも、開発者向けの新機能や製品アップデートが多数含まれていた。これらを丁寧に解説すると長くなるので、残りは以下に箇条書きでまとめておく。

その他の特徴

性能向上

コンピュータ操作能力の向上： 実世界のPC操作タスクを評価する「OSWorld」ベンチマークで、スコアが従来モデルSonnet 4の42.2％から61.4％へ大幅に向上

安全性向上

安全性の強化： Anthropicによるモデル保護レベル「ASL-3（AI Safety Level 3）」に準拠

主な機能アップデート

チェックポイント機能： 進行中の作業を保存し、前の状態に即座にロールバック可能

進行中の作業を保存し、前の状態に即座にロールバック可能 ターミナルUIの刷新： ステータス表示の改善や、プロンプト履歴の検索機能（［Ctrl］＋［R］キー）を追加

ステータス表示の改善や、プロンプト履歴の検索機能（［Ctrl］＋［R］キー）を追加 Visual Studio Code拡張機能： インストールして、Claudeをコーディング支援ツールとして利用可能

インストールして、Claudeをコーディング支援ツールとして利用可能 コンテキスト編集： コンテキスト（文脈）を自動的に整理し、長時間の作業でも会話の一貫性を保てる機能を追加

コンテキスト（文脈）を自動的に整理し、長時間の作業でも会話の一貫性を保てる機能を追加 メモリツール： 長時間タスクや複雑なエージェント動作を支える長期記憶機構を追加

長時間タスクや複雑なエージェント動作を支える長期記憶機構を追加 Claude APIでの利用： 開発者は claude-sonnet-4-5 モデルの指定で即利用可能

アプリと拡張機能の機能強化

Claude Appsの機能強化： チャット内でコード実行やファイル生成（スプレッドシート、スライド、ドキュメント）が可能に

チャット内でコード実行やファイル生成（スプレッドシート、スライド、ドキュメント）が可能に Claude for Chrome拡張： ブラウザでの作業（サイト移動、表計算編集など）に活用。待機リストに登録したMaxプランのユーザー向けに提供開始

開発者向け新ツール「Claude Agent SDK」

Anthropic社内で使用しているエージェント基盤を外部開発者向けに公開。Claude Codeと同じ基盤技術を活用可能

長期メモリ管理、権限制御、複数サブエージェント協調などを実現

研究プレビュー「Imagine with Claude」

Claude Sonnet 4.5がリアルタイムでソフトウェアを即興生成する実験的な機能を、Maxユーザー向けに5日間限定で提供した

Anthropic Claude APIの価格表（Sonnet 4.5利用時）

価格は従来のSonnet 4と同じで、100万トークン当たり入力3ドル、出力15ドル。以下の詳細は公式ドキュメントに基づく（後述の「Pricing」参照）。

100万トークン当たりの料金： 入力トークン（20万トークン以下）： 3.00ドル 入力トークン（20万トークン超）： 6.00ドル 出力トークン（20万トークン以下）： 15.00ドル 出力トークン（20万トークン超）： 22.50ドル



プロンプトキャッシュ利用時の料金（100万トークン当たり）： 書き込み（20万トークン以下）： 3.75ドル 読み出し（20万トークン以下）： 0.30ドル 書き込み（20万トークン超）： 7.50ドル 読み出し（20万トークン超）： 0.60ドル ※ プロンプトキャッシュとは、一度処理したプロンプト（指示文）を保存しておく仕組み。キャッシュからの読み出し時は、再計算が不要なため低コストで利用できる



※価格については変更される可能性があるため、利用の際はAnthropic公式ドキュメント「Pricing」を必ず確認してほしい。

「Deep Insider Brief ― 技術の“今”にひと言コメント」