GPT-5.4登場、“やり抜くAI”へ　100万トークンとCodexアプリがもたらす“実務完遂力”：Deep Insider Brief ― 技術の“今”にひと言コメント

OpenAIの新モデル「GPT-5.4」が登場した。100万トークンの巨大コンテキストやCodexアプリとの連携により、AIが実務タスクを自律的に完遂する能力が大きく強化されている。本稿では、その特徴と実際の使いどころを整理する。

» 2026年03月13日 05時00分公開

[一色政彦，デジタルアドバンテージ]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　GitHub CopilotやCursorのモデル選択画面を見て、「また新しいモデルか」とため息をついている人も多いのではないだろうか。ここ数カ月、AIモデルは次々と更新され、追いかける側も正直少し疲れてきている。ただ最近は、単なる性能競争ではなく、ツールと連携して実際の仕事をどこまでこなせるかという実務能力の競争へと、言語モデルの見方が変わりつつある。

　そんな中で登場したのが、OpenAIの「GPT-5.4」である。2026年3月5日（米国時間）に発表されたこのモデルは、汎用（はんよう）モデルとしてこれまで主力だった「GPT-5.2」の後継に当たる。コーディング能力で評価の高かった「GPT-5.3-Codex」の資質を取り込み、業務ツールやエージェント機能への対応も強化された。最大100万トークン（デフォルト設定では27万2000トークン）のコンテキストウィンドウに対応し、長時間のタスクを途中で止まらずに実行できることを特徴としている。

　さらに、ほぼ同時期に公開されたWindowsデスクトップアプリの「Codexアプリ」と組み合わせることで、AIエージェントが手元のPC上で作業計画を立て、コマンド実行やコード修正を繰り返しながらタスクを自律的に進められるようになった。途中で問題が発生しても修正しながら処理を続けられるため、複雑な依存関係を持つ作業でも最後まで完了させやすくなる。

Windows版Codexアプリで自律的にタスクを実行するGPT-5.4の例
AIが作業計画を立てて処理を進め、途中で問題が起きた場合には自動的に修正しながら処理を継続する。複雑な依存関係を持つタスクでも、人が細かく指示を出さなくても最後まで進められるのが特徴だ。

　こうした“実務完遂力”は、OpenAIが公開している各種ベンチマークの結果にも表れている（表1）。


	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval（勝利・引き分けの割合）	83.0％	70.9％	70.9％
SWE-Bench Pro（公開版）	57.7％	56.8％	55.6％
OSWorld-Verified	75.0％	74.0％*	47.3％
Toolathlon	54.6％	51.9％	46.3％
BrowseComp	82.7％	77.3％	65.8％

表1　GPT-5.4と前世代モデルの主要ベンチマーク比較
知識業務を測る「GDPval」、ソフトウェア開発能力を測る「SWE-Bench Pro」、コンピュータ操作能力を測る「OSWorld-Verified」、AIエージェントによるツール利用能力を評価する「Toolathlon」、Web検索と情報収集能力を測る「BrowseComp」など、実際の作業に近いタスクを想定した評価指標を並べている。
* OSWorldの評価では、GPT-5.3-Codexが新しいAPIパラメーター（画像解像度を保持する設定）を用いた条件で再測定され、従来報告されていた64.7％から74.0％へと更新されている。

　これらは実際の作業に近いタスクを想定した評価であり、例えばビジネス判断や資料作成といった知識業務を測る指標「GDPval」では83.0％を記録し、GPT-5.3-CodexやGPT-5.2の70.9％から大きく伸びている。さらに、ソフトウェア開発を評価する「SWE-Bench Pro」やコンピュータ操作能力を測る「OSWorld-Verified」でも、GPT-5.3-Codexと同等以上の結果となっている。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の発表から技術の“今”を少し深く見ていく。

　Deep Insider編集長の一色です。こんにちは。

　筆者はAnthropicのClaude in Excelを愛用しています。本当に便利で、もうExcel関数を手で書くことはほとんどなくなるのではないかと思うほどです。OpenAIもいずれ同じ方向に来るだろうと考えていたところ、GPT-5.4の発表に合わせてChatGPT for Excelも公開されました。まだ日本では利用できませんが、使えるようになったら「GPT-5.4で本当に実務能力が伸びているのか」を試してみたいと思っています。

　これはかなり私見ですが、Codexアプリの方向性はAnthropicのCoworkに近いようにも見えます。Codexアプリは確かに開発寄りのツールで、GitのWorktreeなどの概念を理解していないと完全には使いこなせません。ただ、ローカル環境で作業を自律的に進め、最後まで完遂させるという点では、発想としては近い存在だと思います。

　そのCodexアプリですが、先週の土曜日から執筆時点の月曜日まで、3日間ほどGPT-5.4モデルを選択した状態で動かし続けています。冒頭の画像はその例です。何十分、場合によっては何時間も動き続けるため、外出中でもスマートフォンから承認や次の作業を指示できたら便利だと感じました。同じことを考えている人は多いはずで、個人的には「モバイル対応」に期待しています。

　いずれにしてもCodexアプリとGPT-5.4の組み合わせはかなり面白いのですが、注意点もあります。100万トークンという巨大なコンテキストウィンドウを持っていますが、これをフルに使うと徐々に性能が落ちていく傾向があります。そのため自動コンパクション（圧縮）が行われますが、長時間のタスクではキリの良いところで意識的に「コンパクション」を挟む方が、高い精度を保ったまま作業を完遂しやすいと感じています。

　また、これは一部で見かける意見ですが、GPT-5.4はUIデザインのセンスがやや弱いという声もあります。ロジックの構築やバグ修正では非常に強いのですが、例えばSVGできれいなイラストを描かせたり、モダンなレイアウトを組ませたりといった感性的な部分では、Claude Opus 4.6やGemini 3.1 Proの方が良いという意見も見かけます。

　コスト面も無視できません。詳しくは後述しますが、API価格はGPT-5.3-Codexよりやや高めです。日常的なプログラミングには引き続きGPT-5.3-Codexを使い、大規模なリファクタリングや自律実行を任せたい場面でGPT-5.4を投入する、といった使い分けが現実的かもしれません。

　GPT-5.4は、発表とほぼ同時に主要なAI開発ツールでも利用可能になっている。GitHub CopilotやCursorでは既にモデルの選択肢として提供されており、API経由でもOpenAIの公式APIの他、OpenRouterなどを通じて利用できる。

　今回のリリースでは、実務での利用を意識した新機能も多数追加されている。ここまでに触れていない主なポイントを以下に整理しておく。

その他の特徴

モデルスペックと新機能

業務用途向け最上位モデル： OpenAIはGPT-5.4を業務用途を重視したモデルとして位置付けており、複雑な実務タスクをより少ないやりとりで正確かつ効率よく処理できるよう設計されたとしている
ビジネス実務への最適化：財務モデリングやデータ抽出など、ビジネス業務を想定したタスク向けの調整が行われている。投資銀行アナリスト業務を想定した内部評価では87.5％を記録し、GPT-5.2の68.4％から改善した
業務ツール対応強化：スプレッドシート、プレゼンテーション、ドキュメント作成など、一般的な知識業務ツールでの作業能力が重点的に改善されている
事実性向上： GPT-5.2と比べ、個々の主張が誤っている確率は相対的に33％低下し、回答全体に誤りが含まれる確率も相対的に18％低下した
最大100万トークンコンテキスト：長文の資料や大規模コードベースを保持したまま処理でき、長時間にわたるタスクでも文脈を維持しながら作業を進めやすくなっている
/fast（ファスト）モード： Codex環境で利用可能な速度優先モード。トークン消費は増えるが、処理速度を高めて結果を得るまでの時間を短縮できる。環境や処理内容によって異なるものの、最大で約1.5倍程度の速度向上が見込まれる
思考プロセス（リーズニング）の制御： reasoning_effortパラメーターにより思考の深さを指定可能。新設されたxhighではより高度なリーズニング処理が可能になるが、コスト増には注意が必要
Windows版Codexアプリ： macOS版に続きWindows版が登場。ローカル環境のファイルやターミナルと連携し、AIが自律的に開発や検証を進められる

OpenAI APIの価格表（gpt-5.4利用時）

　GPT-5.4のAPI料金は、GPT-5.3-Codexと比べて入力コストがやや高く（1.75ドル→2.50ドル、約43％増）、出力コストはほぼ同程度（14.00ドル→15.00ドル、約7％増）となっている。

　以下の料金体系では、コンテキストが27万2000（272K）トークンを超える場合、入力は2倍、出力は1.5倍の料金になる。これは前バージョンのGPT-5.3-Codexにはなかった新しい仕様である。

100万トークン当たりの料金：
- 入力トークン： 2.50ドル
- 出力トークン： 15.00ドル

プロンプトキャッシュ利用時の料金（100万トークン当たり）：
- 入力トークン： 0.25ドル
- ※プロンプトキャッシュとは、指示文などの入力（プロンプト）をキャッシュして再利用する仕組み。キャッシュされた入力（Cached input）は再計算が不要なため、通常の入力より低コストで利用できる