GPT-5.3-Codexが主要ツールで解禁　OS操作などを含む開発タスクを自律的に完遂する能力が大幅向上：Deep Insider Brief ― 技術の“今”にひと言コメント

コード生成にとどまらず、環境構築からエラー解決まで一連の開発作業を最後までやり切る。GPT-5.3-Codexは、AIコーディングを「作業を丸ごと任せられる段階」へと引き上げた。その変化を、実体験と公式情報から整理する。

» 2026年02月17日 05時00分公開

[一色政彦，デジタルアドバンテージ]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　AIコーディングは、開発環境の初期構築から、要望に応じたターミナル操作、突発的に発生したエラーの原因特定と解決までを、自律的にこなすようになってきた。AIは今、「コードを書く存在」から、「開発作業そのものを引き受けて自律的に完遂する相棒」へと役割を広げつつある。こうしたエージェント型（自律的）のタスク遂行能力を大きく押し上げたのが、「GPT-5.3-Codex」だ。

　OpenAIが2026年2月5日（米国時間）にリリースしたこのコーディング特化モデルは、当初はOpenAI Codex環境での先行提供だったが、わずか4日後の2月9日にはGitHub CopilotやCursorといった主要なAI開発ツールでも解禁された。前バージョンであるGPT-5.2-Codexの登場から、1カ月もたたないうちでの刷新となる。以下の図に示す各種ベンチマーク結果は、GPT-5.3-CodexがOS・ターミナル操作能力を中心に、大きな伸びを見せていることを裏付けている。

OSWorld-Verified（左）とTerminal-Bench 2.0（右）におけるGPT-5.3-Codexの評価結果（OpenAI公式発表より引用）
アプリ操作やファイル管理など、実際のOS操作を伴うタスクの完遂度を測るベンチマーク「OSWorld-Verified」では、GPT-5.3-Codexが64.7％を記録し、従来モデル（約38％台）から大きく伸びた。ターミナル操作を評価するベンチマーク「Terminal-Bench 2.0」でも77.3％という高い成功率を示しており、OSやターミナルを操作しながら一連の作業を最後までやり切る能力が向上していることが分かる。

　ここで重要なのは、単にOSやターミナルを操作できるという点ではなく、環境構築、実行、エラー対応、再実行といった一連の作業を、途中で前提（コンテキスト）を失うことなく同じ流れのまま続けられるようになった点にある。GPT-5.3-Codexでは作業が分断されにくくなり、その結果、開発者の意図を保ったまま開発タスクを最後まで遂行できることが期待できる。

　もう一つの注目ポイントは、「AIがAIモデル開発の実作業に深く関わるようになった」という点である。OpenAIの公式発表によれば、GPT-5.3-Codexは「自分自身を作ることに貢献した最初のモデル」とされ、開発チームは初期バージョンを使って、自身のトレーニングのデバッグ、デプロイ管理、テスト結果や評価の診断といった工程を実際に遂行させたという。

　もちろん、設計思想や最終的な判断は人間が担っている。しかし、AIが実装や検証といった作業を引き受け、人間が評価や意思決定を行うという循環構造が、実運用レベルで回り始めた点は見逃せない。OpenAIが「チームは、Codexが自身の開発をどれほど加速できたかに驚いた」と述べているように、この循環が成立したことで、AIモデル開発そのもののスピードがさらに高まっていく可能性が見えてきた

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、筆者が実際にOpenAI Codex上で本モデルを使い、開発に投入してみた際の手応えを紹介したい。

　Deep Insider編集長の一色です。こんにちは。

　私はOpenAI Codex上で、リリース直後からこのGPT-5.3-Codexを使って開発してきました。あくまで個人的な感想になりますが、「非常に律儀に、理路整然と作業を進めてくれる」という印象を持っています。指示を与えると、その意図を踏まえた上で段取りを組み、必要な確認や修正を挟みながら、着実に前に進めてくれる。結果として手戻りが少なく、「任せて進められる」という安心感がありました。

　ちなみに、英語掲示板redditのスレッドでも、一部のユーザーから「GPT-5.3-Codexは従来（5.2-Codex）よりも振る舞いが良い」「分かりやすい」「指示に従いやすい」といった感想が見られます。私の感想に近いですね。ただし、利用環境やプログラミング言語によって印象は変わる可能性があるため、あくまで一つの感想として受け取っていただければと思います。

　実際に使ってみて、GPT-5.3-CodexはGPT-5.2-Codexから確かに一段階進化したと感じています。特にOpenAI Codex環境で日常的に開発している人にとっては、試してみる価値のあるモデルだと思います。他のコーディング支援ツールと比べても、こちらの意図を丁寧に汲み取り、過度に先走らず進めてくれる点が、自分の作業スタイルにはよく合っていました。もちろん、他のツールにも得意分野はあり、用途に応じて併用しています。

　なお、CodexモデルはOpenAI Codexの環境自体に最適化されています（OpenAI公式の勉強会で知りました）。そのため、GitHub CopilotやCursorで使うよりも、OpenAI Codex上で利用した方が、モデルの特性をより引き出しやすい可能性はありそうです。

　今回のリリースには、前述したAIエージェントとしての能力向上に加え、実務での利用をより強力に支える新機能や改善点も含まれている。以下にその主なポイントを整理する。

更新内容

主要な新機能と改善点

作業中の指示調整（ステアリング）への対応： AIがタスクを実行している最中でも、人間がメッセージを送って指示を調整できる機能。長時間タスクにおいて、途中で方向修正や介入を行いやすくなった
推論速度の向上： OpenAI Codex環境において、前世代（GPT-5.2-Codex）と比べて約25％高速化された。インフラおよび推論スタックの最適化によるもので、複雑なエンジニアリング工程でも応答や結果取得がより迅速になる
サイバーセキュリティ基準「High」への対応：防御的サイバーセキュリティ能力を含む評価において高い安全基準が適用されている。安全なコード生成を前提とした厳格なガードレールが設けられている
コンピュータ操作能力の拡張： OSWorld-Verifiedベンチマークで示されている通り、デスクトップ環境におけるアプリ操作やファイル管理など、OSを横断した実務的なタスクへの対応力が向上している。加えてGDPvalベンチマークでも、財務分析用スプレッドシートや業務向けスライドデッキの作成といった知識業務において、高い性能が確認されている
ソフトウェア開発全体のサポート：コードを書く作業にとどまらず、デバッグやテスト、デプロイ、監視といった工程まで含めて、ソフトウェア開発の一連の流れを支援する設計となっている。加えて、PRD（プロダクト要求仕様書）の作成やコピー編集、ユーザーリサーチ、メトリクス管理など、周辺業務にも対応する