GPT-5.5は最高性能ではないのに、なぜエンジニアが熱狂？　カギは“最後まで自走する力”：Deep Insider Brief ― 技術の“今”にひと言コメント

GPT-5.5は、ベンチマークだけを見れば絶対王者ではない。それでも開発者が熱狂する理由を、Codexとの組み合わせ、トークン効率、そして“最後まで自走する力”から整理する。

» 2026年05月12日 05時00分公開

[一色政彦，デジタルアドバンテージ]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　AIモデルの進化は、これまで「どのモデルが最も高いベンチマークスコアを出すか」という競争として語られることが多かった。特にコーディングやソフトウェアエンジニアリングの領域では、SWE-Benchなどの評価指標を基準に、次のSOTA（最先端）モデルはどれかが注目されてきた。

　ただ、この1カ月ほどで、その見方は少し変わりつつある。重要なのは、単に最高スコアを取ることだけではない。実際の開発現場で、AIがどこまで自分で考え、ツールを使い、途中で止まらずに作業を進められるか。OpenAIが2026年4月23日（米国時間）に発表したGPT-5.5は、まさにその流れの中で登場したモデルである。

コーディング関連ベンチマークにおけるGPT-5.5とGPT-5.4の比較（公式発表ページから引用）
左はTerminal-Bench 2.0（ターミナル操作を含むコーディングタスク）、右はExpert-SWE（OpenAIの社内評価）。横軸は出力トークン数、縦軸はスコアを示している。グラフは、出力トークン数を増やしたときに、各モデルのスコアがどのように変化するかを表している。

　このグラフで重要なのは、GPT-5.5がGPT-5.4よりも、少ない出力トークンで高いスコアに到達している点である。これは、大量のコードや説明を出して力任せに解くのではなく、より少ない出力で必要な作業にたどり着きやすくなったことを示している。AIの利用料金は多くの場合、入力や出力に使ったトークン数に応じて決まるため、同じ成果により少ないトークンで到達できるなら、単に性能が上がっただけでなく、実務上の効率も高まったと考えられる。

　実は、OpenAI APIの価格表（後述）を見ると、GPT-5.5の通常料金はGPT-5.4と比べて、入力トークン・出力トークンのいずれも2倍に引き上げられている。それでも不満が目立ちにくいのは、先ほどのグラフで見た通り、GPT-5.5がより少ないトークンで高いスコアに到達しやすいからだ。回答が速く、手戻りも少なければ、タスク完了までの総コストは単純に2倍にはならない。つまりGPT-5.5は、価格上昇を効率改善で相殺しようとしているモデルと捉えられる。

　またGPT-5.5は、複雑でツール利用が多い複数ステップの作業に強く、ツールの選択や引数指定もより精密になっている。この方向性は、Terminal-Bench 2.0（計画、反復、ツール協調が必要なコマンドライン作業）やSWE-Bench Pro（現実のGitHub issue解決）の結果にも表れている。つまり「GPT-5.5」は、Codex上で開発タスクを最後まで進めるエージェント性能を重視する場面で大きな力を発揮し得る。一方、5月5日にChatGPTへ導入された「GPT-5.5 Instant」は、日常利用向けの標準モデルという位置付けだ。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の発表から技術の“今”を少し深く見ていく。併せて後半では、GPT-5.5の主要なアップデート内容と料金体系を簡潔に整理する。

　Deep Insider編集長の一色です。こんにちは。

　GPT-5.5は、4月16日に発表されたClaude Opus 4.7とよく比較されます。例えばSWE-Bench Proでは、Opus 4.7が64.3％、GPT-5.5が58.6％で、Opus 4.7が上回っています。つまり、GPT-5.5は「純粋なコーディング評価で世界最高」と言い切れるモデルではありません。それでも私の観測範囲では、開発者の熱量はCodex＋GPT-5.5の組み合わせにかなり傾いているように感じます。

　この状況を見て、私はAIモデルの評価軸が既に変わったのだと感じました。ベンチマークで高い点を取ることはもちろん重要ですが、それだけで実務に強いとは限りません。この1カ月ほどのOpenAIの動きでうまいと感じるのは、単なる性能競争から少し距離を置き、Codexと組み合わせて「実際の開発作業を前に進めるモデル」としてGPT-5.5を見せている点です。最後まで進める「やり切る力」を高める戦略が奏功し、開発者の心理を大きく動かしているのではないかと私は見ています。

　一方で、Claude＋Opus 4.7が強い場面もあります。具体的には「デザイン」や「文章の整え方」は非常に魅力的です。特に私はSuperpowersプラグインをClaude Codeに組み合わせるのにはまっており、UIやデザイン面ではかなり気持ちよく使えています。ただ、日常的な開発作業を何度も回す用途では、速度やトークン効率の面でCodex＋GPT-5.5を選びたくなる場面が増えており、この1カ月ほどは私もこちらをメインに使っています。

　話は少し脱線しますが、AIコーディング環境のコストアップも続いていますよね。OpenAIについては、Plusプランの2倍キャンペーンが終了して、Proプランの2倍キャンペーンが始まっています（5月31日まで）。PlusとProでは価格が5倍違いますが、開発用途で本格的に使うと、Proでないとトークンが足りないと感じます。GitHub Copilotも料金体系を使用量ベース課金へ移行しようとしています。どの環境を使う場合でも、今後は月1万5000円以上を出さないと、開発用途でAIを常用するのは難しくなりそうですね……。

　GPT-5.5は、OpenAIが提供する環境では、ChatGPT、Codex、OpenAI APIを通じて利用できる。ただし、同じGPT-5.5系モデルでも、どこから使うかによって、利用できるモデルや対象プランは異なる。ChatGPTでは、用途や契約プランに応じて、主に次のモデルが提供されている。

GPT-5.5 Instant： ChatGPTの日常利用向けモデル
GPT-5.5 Thinking： 思考プロセスを重視するモデル。Plus、Pro、Business、Enterprise向け
GPT-5.5 Pro： より難しい質問や高精度な作業向けの上位モデル。Pro、Business、Enterprise、Edu向け

　Codexでは、OpenAI公式発表において、GPT-5.5はPlus、Pro、Business、Enterprise、Edu、Go向けに提供されると説明されている。なお、Codex自体は無料版やGoでも期間限定で利用できるため、Codexという機能の提供範囲と、Codex上でGPT-5.5を使える対象プランは分けて考える必要がある。

　API経由では、OpenAI APIでgpt-5.5とgpt-5.5-proが提供されている。また、OpenRouterでもopenai/gpt-5.5とopenai/gpt-5.5-proとして掲載されており、通常版は入力5.00ドル／出力30.00ドル、Pro版は入力30.00ドル／出力180.00ドル（いずれも100万トークン当たり）で利用できる。API料金については後述する。

　OpenAI以外の開発支援ツールでも、GPT-5.5への対応は進んでいる。Cursorでは既にGPT-5.5を利用できる。一方、GitHub CopilotではCopilot Pro+、Business、Enterpriseが対象で、Copilot Proでは利用できない。また、GitHub Copilotのモデル乗数では、GPT-5.5は7.5倍で扱われている。GPT-5.3-Codexが1倍であることを考えると、GitHub Copilot経由では気軽に使いにくい。

　以下では、GPT-5.5関連の主な特徴、挙動の変化、利用時に注意したい点を整理する。

その他の特徴

GPT-5.5の主なアップデート内容

エージェント型コーディングの強化： GPT-5.5は、コードを書く、デバッグする、テストする、エラーを確認して修正する、といった複数ステップの開発作業に強くなった。特にCodexと組み合わせることで、実装、リファクタリング、検証までをまとめて任せやすくなっている
ツール利用の精度向上： OpenAIは、GPT-5.5について、ツールの選択や引数指定がより精密になったと説明している。ここでいうツールとは、コード実行、検索、ファイル操作、外部サービス連携など、AIが作業を進めるために呼び出す機能のこと
少ないトークンで高い成果に到達： GPT-5.5は、GPT-5.4よりも少ないトークンで高いスコアや良い結果に到達しやすいとされている。特に複雑でツール利用が多い複数ステップの作業では、トークン節約効果が積み上がりやすい。価格は上がっているが、効率改善によって実際のコスト増が抑えられる可能性がある
知識業務やコンピュータ操作も改善： GPT-5.5は、開発だけでなく、調査、データ分析、文書作成、スプレッドシート作成、ソフトウェア操作にも力を入れたモデルである。OpenAIの評価では、知識業務を測るGDPvalで84.9％、実際のコンピュータ環境を操作するOSWorld-Verifiedで78.7％を記録している
GPT-5.5 Proも提供： より難しい質問や高い正確性が必要な作業向けに、上位版の「GPT-5.5 Pro」も用意されている。OpenAIは、ビジネス、法律、教育、データサイエンスなど、難度の高い作業で有用性が高いと説明している
GPT-5.5 Instantの提供： 5月5日には、ChatGPTの日常利用向けモデルとして「GPT-5.5 Instant」も発表された。これはCodexで長時間の開発タスクを任せるためのモデルというより、ChatGPTの標準モデルとして、より正確、簡潔、個人に合った回答を返すためのモデルである
ハルシネーション（幻覚）の削減： GPT-5.5 Instantでは、GPT-5.3 Instantと比べて、医療、法律、金融などの高リスク領域における幻覚的な主張が52.5％減少した。幻覚とは、AIが事実ではない内容をもっともらしく答えてしまう現象である
パーソナライズとMemory sources： GPT-5.5 Instantでは、過去のチャット、ファイル、接続済みGmailなどの文脈を、必要に応じて回答に反映しやすくなった。また「Memory sources」により、回答の個人化にどの記憶や過去チャットが使われたかを確認し、古い情報を削除・修正しやすくなる
プロンプト設計の変化： GPT-5.5では、細かい手順を長く指定するよりも、「何を達成したいか」「成功条件は何か」を明確に書く方が効果的とされている。古いモデル向けの長く複雑なプロンプトは、GPT-5.5ではかえってノイズになる可能性がある
reasoning effort（思考プロセスの深さ）の調整： APIでは、AIにどれくらい深く考えさせるかを指定するreasoning.effortを利用できる。GPT-5.5ではmediumが標準だが、用途によってはlowでも十分な場合がある。無理に高くすると、コストや待ち時間が増えるだけでなく、考えすぎにつながる場合もある
画像入力の詳細保持： GPT-5.5では、画像入力時により細かい視覚情報を保持しやすくなった。標準設定では、最大1024万ピクセル、または一辺6000ピクセルまでリサイズせずに扱えるため、画面キャプチャやUI操作を伴う用途で精度向上が期待できる

OpenAI APIの価格表（gpt-5.5利用時）

　GPT-5.5のAPI料金は、GPT-5.4と比べて入力コストが2.50ドル→5.00ドル、出力コストが15.00ドル→30.00ドルとなり、いずれも2倍に引き上げられている。キャッシュ入力も0.25ドル→0.50ドルとなり、こちらも2倍である。

　以下の料金体系では、コンテキストが27万2000（272K）トークンを超える場合、「詳細なコンテキスト」扱いとなり、入力は2倍、出力は1.5倍の料金になる。

100万トークン当たりの料金：
- 入力トークン： 5.00ドル
- 出力トークン： 30.00ドル

プロンプトキャッシュ利用時の料金（100万トークン当たり）：
- 入力トークン： 0.50ドル
- ※プロンプトキャッシュとは、指示文などの入力（プロンプト）をキャッシュして再利用する仕組み。キャッシュされた入力（Cached input）は再計算が不要なため、通常の入力より低コストで利用できる