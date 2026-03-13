この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

GitHub CopilotやCursorのモデル選択画面を見て、「また新しいモデルか」とため息をついている人も多いのではないだろうか。ここ数カ月、AIモデルは次々と更新され、追いかける側も正直少し疲れてきている。ただ最近は、単なる性能競争ではなく、ツールと連携して実際の仕事をどこまでこなせるかという実務能力の競争へと、言語モデルの見方が変わりつつある。

そんな中で登場したのが、OpenAIの「GPT-5.4」である。2026年3月5日（米国時間）に発表されたこのモデルは、汎用（はんよう）モデルとしてこれまで主力だった「GPT-5.2」の後継に当たる。コーディング能力で評価の高かった「GPT-5.3-Codex」の資質を取り込み、業務ツールやエージェント機能への対応も強化された。最大100万トークン（デフォルト設定では27万2000トークン）のコンテキストウィンドウに対応し、長時間のタスクを途中で止まらずに実行できることを特徴としている。

さらに、ほぼ同時期に公開されたWindowsデスクトップアプリの「Codexアプリ」と組み合わせることで、AIエージェントが手元のPC上で作業計画を立て、コマンド実行やコード修正を繰り返しながらタスクを自律的に進められるようになった。途中で問題が発生しても修正しながら処理を続けられるため、複雑な依存関係を持つ作業でも最後まで完了させやすくなる。

こうした“実務完遂力”は、OpenAIが公開している各種ベンチマークの結果にも表れている（表1）。

GPT-5.4 GPT-5.3-Codex GPT-5.2 GDPval（勝利・引き分けの割合） 83.0％ 70.9％ 70.9％ SWE-Bench Pro（公開版） 57.7％ 56.8％ 55.6％ OSWorld-Verified 75.0％ 74.0％ * 47.3％ Toolathlon 54.6％ 51.9％ 46.3％ BrowseComp 82.7％ 77.3％ 65.8％ 表1 GPT-5.4と前世代モデルの主要ベンチマーク比較

知識業務を測る「GDPval」、ソフトウェア開発能力を測る「SWE-Bench Pro」、コンピュータ操作能力を測る「OSWorld-Verified」、AIエージェントによるツール利用能力を評価する「Toolathlon」、Web検索と情報収集能力を測る「BrowseComp」など、実際の作業に近いタスクを想定した評価指標を並べている。

* OSWorldの評価では、GPT-5.3-Codexが新しいAPIパラメーター（画像解像度を保持する設定）を用いた条件で再測定され、従来報告されていた64.7％から74.0％へと更新されている。



これらは実際の作業に近いタスクを想定した評価であり、例えばビジネス判断や資料作成といった知識業務を測る指標「GDPval」では83.0％を記録し、GPT-5.3-CodexやGPT-5.2の70.9％から大きく伸びている。さらに、ソフトウェア開発を評価する「SWE-Bench Pro」やコンピュータ操作能力を測る「OSWorld-Verified」でも、GPT-5.3-Codexと同等以上の結果となっている。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の発表から技術の“今”を少し深く見ていく。