“世界最高のコーディングモデル”をうたう「Claude Sonnet 4.5」登場 長時間タスク対応と安全設計Deep Insider Brief ― 技術の“今”にひと言コメント

Anthropicの最新モデルは、長時間の開発作業でも安定して動作する処理能力と、利用者が安心して使える安全設計の両面で進化。開発者向けに多くの新機能も追加された。

» 2025年10月10日 05時00分 公開
[Deep Insider]
「Deep Insider Brief ― 技術の“今”にひと言コメント」のインデックス

連載目次

 Anthropicは2025年9月30日、同社の主力AIモデル「Claude」シリーズの最新版「Claude Sonnet 4.5」を公開した。“世界最高のコーディングモデル”(the best coding model in the world)と豪語するほどの自信を見せており、実際に前世代を上回る精度を達成している。

ソフトウェアエンジニアリング分野のベンチマーク(SWE-bench Verified)におけるコーディング性能比較(公式発表ページより引用) ソフトウェアエンジニアリング分野のベンチマーク(SWE-bench Verified)におけるコーディング性能比較(公式発表ページより引用)
横軸は主要AIモデル(例:Claude Sonnet 4.5、GPT-5-Codex、Gemini 2.5 Proなど)を示し、縦軸は「課題を正しく解決できた割合(%)」を表している。上に行くほどコード生成や修正タスクの精度が高いことを意味する。色付きのバーはClaudeシリーズ(Sonnet/Opus)を示しており、Sonnet 4.5は77.2%で、前世代の上位モデルOpus 4.1の74.5%を上回る精度を達成した。なお、バー上部の「*」印は、複数の思考経路を同時に実行する「並列テスト時計算(parallel test-time compute)」によって得られた最良スコアを示している。

 実用面でも、複雑な多段階タスクにおいて30時間以上にわたり一貫した処理を維持できたことが確認されている。言い換えれば、非常に長い依存関係を壊さずに作業を継続できる安定性を備えており、大規模なコードベースでも粘り強く開発を進められることが期待される。

 さらに注目すべきは、安全性の強化である。Sonnet 4.5はこれまでで最も“人間の意図や倫理観に沿うよう調整された”(aligned)モデルとして設計されており、性能だけでなく信頼性の面でも大きな進化を遂げた。

 具体的には、欺瞞(ぎまん)、おべっか(過剰な従順)、支配を強めるような動き、妄想の助長、有害な指示プロンプトへの従属といった、人にとって望ましくない振る舞い(Misaligned behavior)を自動的に検出し評価するテスト(Anthropic独自の評価フレームワークによる)において、主要モデルの中で最も低いスコア(=問題行動が少ない)を記録した。また、安全対策(セーフガード)も強化されており、特に大量破壊兵器(化学兵器、生物兵器、放射能兵器、核《CBRN》兵器)に関連する潜在的に危険な入出力を検出するフィルターが設けられている。

 もちろん、進化はこれだけにとどまらない。汎用(はんよう)モデルとしての思考力(reasoning)や数学的推論力が大幅に強化され、チャット形式での質問応答や複雑な問題解決タスクにも一層強くなっている。さらに、金融・法律・医療・STEM(科学・技術・工学・数学)といった専門分野での知識と論理展開力も向上し、「エージェント構築」や「コンピュータ操作」を含む多様な知的活動を支える“総合モデル”としての可能性を、いっそう押し広げている。


一色政彦

 Deep Insider編集長の一色です。こんにちは。

 Claudeシリーズはもともと、開発者に人気の高いAIモデルです。特に2025年2月登場の「Claude 3.7 Sonnet」で優れたプログラミング能力を示し、同年4月発表のMaxプランでは、通常の利用頻度であれば“ほぼ無制限”に使える環境(実際には制限あり)が支持を集めました。

 とはいえ夏以降は、「性能劣化のうわさ」や「使用制限の強化(週単位での使用制限の導入)」などもあり、人気がやや低迷し始めていました。そうした流れを払拭するかのように登場したのが、今回の「Claude Sonnet 4.5」です。

 長時間タスクの安定性などによってユーザー評価が改善し、「Maxプランはやめない」という声も多く挙がっています。一方で、依然として評価が分かれる面もあり、AIモデル間の性能差が小さくなる中で、プログラミング分野でのモデル競争がさらに激化しそうですね。


 さて、今回のリリースには、先に述べた性能強化以外にも、開発者向けの新機能や製品アップデートが多数含まれていた。これらを丁寧に解説すると長くなるので、残りは以下に箇条書きでまとめておく。

その他の特徴

性能向上

  • コンピュータ操作能力の向上: 実世界のPC操作タスクを評価する「OSWorld」ベンチマークで、スコアが従来モデルSonnet 4の42.2%から61.4%へ大幅に向上

安全性向上

  • 安全性の強化: Anthropicによるモデル保護レベル「ASL-3(AI Safety Level 3)」に準拠

主な機能アップデート

  • チェックポイント機能: 進行中の作業を保存し、前の状態に即座にロールバック可能
  • ターミナルUIの刷新: ステータス表示の改善や、プロンプト履歴の検索機能([Ctrl]+[R]キー)を追加
  • Visual Studio Code拡張機能: インストールして、Claudeをコーディング支援ツールとして利用可能
  • コンテキスト編集: コンテキスト(文脈)を自動的に整理し、長時間の作業でも会話の一貫性を保てる機能を追加
  • メモリツール: 長時間タスクや複雑なエージェント動作を支える長期記憶機構を追加
  • Claude APIでの利用: 開発者はclaude-sonnet-4-5モデルの指定で即利用可能

アプリと拡張機能の機能強化

  • Claude Appsの機能強化: チャット内でコード実行やファイル生成(スプレッドシート、スライド、ドキュメント)が可能に
  • Claude for Chrome拡張: ブラウザでの作業(サイト移動、表計算編集など)に活用。待機リストに登録したMaxプランのユーザー向けに提供開始

開発者向け新ツール「Claude Agent SDK」

  • Anthropic社内で使用しているエージェント基盤を外部開発者向けに公開。Claude Codeと同じ基盤技術を活用可能
  • 長期メモリ管理、権限制御、複数サブエージェント協調などを実現

研究プレビュー「Imagine with Claude」

  • Claude Sonnet 4.5がリアルタイムでソフトウェアを即興生成する実験的な機能を、Maxユーザー向けに5日間限定で提供した

Anthropic Claude APIの価格表(Sonnet 4.5利用時)

 価格は従来のSonnet 4と同じで、100万トークン当たり入力3ドル、出力15ドル。以下の詳細は公式ドキュメントに基づく(後述の「Pricing」参照)。

  • 100万トークン当たりの料金:
    • 入力トークン(20万トークン以下): 3.00ドル
    • 入力トークン(20万トークン超): 6.00ドル
    • 出力トークン(20万トークン以下): 15.00ドル
    • 出力トークン(20万トークン超): 22.50ドル
  • プロンプトキャッシュ利用時の料金(100万トークン当たり):
    • 書き込み(20万トークン以下): 3.75ドル
    • 読み出し(20万トークン以下): 0.30ドル
    • 書き込み(20万トークン超): 7.50ドル
    • 読み出し(20万トークン超): 0.60ドル
    • プロンプトキャッシュとは、一度処理したプロンプト(指示文)を保存しておく仕組み。キャッシュからの読み出し時は、再計算が不要なため低コストで利用できる

 価格については変更される可能性があるため、利用の際はAnthropic公式ドキュメント「Pricing」を必ず確認してほしい。

「Deep Insider Brief ― 技術の“今”にひと言コメント」のインデックス

Deep Insider Brief ― 技術の“今”にひと言コメント

Copyright© Digital Advantage Corp. All Rights Reserved.

アイティメディアからのお知らせ

スポンサーからのお知らせPR

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。