OpenAIの新モデル「GPT-5.4」が登場した。100万トークンの巨大コンテキストやCodexアプリとの連携により、AIが実務タスクを自律的に完遂する能力が大きく強化されている。本稿では、その特徴と実際の使いどころを整理する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
GitHub CopilotやCursorのモデル選択画面を見て、「また新しいモデルか」とため息をついている人も多いのではないだろうか。ここ数カ月、AIモデルは次々と更新され、追いかける側も正直少し疲れてきている。ただ最近は、単なる性能競争ではなく、ツールと連携して実際の仕事をどこまでこなせるかという実務能力の競争へと、言語モデルの見方が変わりつつある。
そんな中で登場したのが、OpenAIの「GPT-5.4」である。2026年3月5日(米国時間)に発表されたこのモデルは、汎用(はんよう)モデルとしてこれまで主力だった「GPT-5.2」の後継に当たる。コーディング能力で評価の高かった「GPT-5.3-Codex」の資質を取り込み、業務ツールやエージェント機能への対応も強化された。最大100万トークン(デフォルト設定では27万2000トークン)のコンテキストウィンドウに対応し、長時間のタスクを途中で止まらずに実行できることを特徴としている。
さらに、ほぼ同時期に公開されたWindowsデスクトップアプリの「Codexアプリ」と組み合わせることで、AIエージェントが手元のPC上で作業計画を立て、コマンド実行やコード修正を繰り返しながらタスクを自律的に進められるようになった。途中で問題が発生しても修正しながら処理を続けられるため、複雑な依存関係を持つ作業でも最後まで完了させやすくなる。
Windows版Codexアプリで自律的にタスクを実行するGPT-5.4の例こうした“実務完遂力”は、OpenAIが公開している各種ベンチマークの結果にも表れている(表1)。
| GPT-5.4 | GPT-5.3-Codex | GPT-5.2 | |
|---|---|---|---|
| GDPval(勝利・引き分けの割合) | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro(公開版) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
| Toolathlon | 54.6% | 51.9% | 46.3% |
| BrowseComp | 82.7% | 77.3% | 65.8% |
これらは実際の作業に近いタスクを想定した評価であり、例えばビジネス判断や資料作成といった知識業務を測る指標「GDPval」では83.0%を記録し、GPT-5.3-CodexやGPT-5.2の70.9%から大きく伸びている。さらに、ソフトウェア開発を評価する「SWE-Bench Pro」やコンピュータ操作能力を測る「OSWorld-Verified」でも、GPT-5.3-Codexと同等以上の結果となっている。
――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の発表から技術の“今”を少し深く見ていく。
Deep Insider編集長の一色です。こんにちは。
筆者はAnthropicのClaude in Excelを愛用しています。本当に便利で、もうExcel関数を手で書くことはほとんどなくなるのではないかと思うほどです。OpenAIもいずれ同じ方向に来るだろうと考えていたところ、GPT-5.4の発表に合わせてChatGPT for Excelも公開されました。まだ日本では利用できませんが、使えるようになったら「GPT-5.4で本当に実務能力が伸びているのか」を試してみたいと思っています。
これはかなり私見ですが、Codexアプリの方向性はAnthropicのCoworkに近いようにも見えます。Codexアプリは確かに開発寄りのツールで、GitのWorktreeなどの概念を理解していないと完全には使いこなせません。ただ、ローカル環境で作業を自律的に進め、最後まで完遂させるという点では、発想としては近い存在だと思います。
そのCodexアプリですが、先週の土曜日から執筆時点の月曜日まで、3日間ほどGPT-5.4モデルを選択した状態で動かし続けています。冒頭の画像はその例です。何十分、場合によっては何時間も動き続けるため、外出中でもスマートフォンから承認や次の作業を指示できたら便利だと感じました。同じことを考えている人は多いはずで、個人的には「モバイル対応」に期待しています。
いずれにしてもCodexアプリとGPT-5.4の組み合わせはかなり面白いのですが、注意点もあります。100万トークンという巨大なコンテキストウィンドウを持っていますが、これをフルに使うと徐々に性能が落ちていく傾向があります。そのため自動コンパクション(圧縮)が行われますが、長時間のタスクではキリの良いところで意識的に「コンパクション」を挟む方が、高い精度を保ったまま作業を完遂しやすいと感じています。
また、これは一部で見かける意見ですが、GPT-5.4はUIデザインのセンスがやや弱いという声もあります。ロジックの構築やバグ修正では非常に強いのですが、例えばSVGできれいなイラストを描かせたり、モダンなレイアウトを組ませたりといった感性的な部分では、Claude Opus 4.6やGemini 3.1 Proの方が良いという意見も見かけます。
コスト面も無視できません。詳しくは後述しますが、API価格はGPT-5.3-Codexよりやや高めです。日常的なプログラミングには引き続きGPT-5.3-Codexを使い、大規模なリファクタリングや自律実行を任せたい場面でGPT-5.4を投入する、といった使い分けが現実的かもしれません。
GPT-5.4は、発表とほぼ同時に主要なAI開発ツールでも利用可能になっている。GitHub CopilotやCursorでは既にモデルの選択肢として提供されており、API経由でもOpenAIの公式APIの他、OpenRouterなどを通じて利用できる。
今回のリリースでは、実務での利用を意識した新機能も多数追加されている。ここまでに触れていない主なポイントを以下に整理しておく。
GPT-5.4のAPI料金は、GPT-5.3-Codexと比べて入力コストがやや高く(1.75ドル→2.50ドル、約43%増)、出力コストはほぼ同程度(14.00ドル→15.00ドル、約7%増)となっている。
以下の料金体系では、コンテキストが27万2000(272K)トークンを超える場合、入力は2倍、出力は1.5倍の料金になる。これは前バージョンのGPT-5.3-Codexにはなかった新しい仕様である。
GPT-5.4には、OpenAI公式API(Responses API)でのみ利用可能な高性能版「gpt-5.4-pro」も用意されている。通常版と比べておおむね約12倍の価格設定となっている。
※価格は変更される可能性があるため、利用の際はOpenAI公式ドキュメント「API 料金」を必ず確認してほしい。
Copyright© Digital Advantage Corp. All Rights Reserved.
編集部からのお知らせ