GPT-5.2登場　知識は2025年8月まで刷新、最高性能の“代償”とは：Deep Insider Brief ― 技術の“今”にひと言コメント

OpenAIの最新モデル「GPT-5.2」が登場し、学習データの範囲が「2024年9月まで」から「2025年8月まで」にアップデートされた。最高性能を実現した一方でAPI価格は上昇しているので、筆者の視点から、その背景と現実的な使い分けの考え方を掘り下げる。

[一色政彦，デジタルアドバンテージ] PC用表示関連情報

LINE

Hatena

連載目次

　GitHub CopilotやCursorのモデル選択画面に並ぶ現行モデルについては、これまでこのBrief（概説）連載の中で、できるだけ同じ書き方、同じ粒度で紹介してきた。ここ1カ月ほどは、週に何個も新しい言語モデルが登場する状況が続いており、正直なところ「もう把握し切れない」と感じて、少し疲れを感じている人も少なくないだろう。そんな中で、また新たなモデルが加わった。

　そうした状況の中で、OpenAIは2025年12月11日（米国時間）、新たなフラグシップモデルとなる「GPT-5.2」シリーズを発表した。これまでの主力だった「GPT-5.1」の後継に当たり、複雑な思考を行う「Thinking」モデル、さらに思考力を強化した「Pro」、そして軽量な「Instant」というラインアップで展開される。これらのモデル発表と同時にAPIも提供が開始され、GitHub Copilotをはじめとする主要なAI開発ツールでも、すぐに選択可能な状態となった。

主要なベンチマークにおけるGPT-5.2 Thinking（左端）と競合モデルの比較（OpenAI CEOであるサム・アルトマン氏のX投稿より引用）
数学競技レベルの問題を測るAIME 2025で100.0％、実務タスクの総合評価を示すGDPvalで70.9％を記録し、GoogleのGemini 3 ProやAnthropicのClaude Opus 4.5を上回る結果となっている。

　GPT-5.2の最大の特徴は、基礎性能の大幅な向上と、知識鮮度の刷新にある。

　まず性能面を見ると、難関として知られる数学ベンチマーク「AIME 2025」において、正答率100.0％（満点）を達成した。さらに、実社会の専門業務を模したテストである「GDPval」でも、人間の専門家レベルの目安とされる70％のラインを超えている。これらの結果は、単に「コードが書ける」段階を超え、複雑なシステム設計や原因の特定が難しいバグ修正といった、より高度なエンジニアリング作業を任せられる水準に近づいたことを示している。

　そして、ChatGPT利用者や開発者にとって見逃せないのが、学習データの期間（ナレッジカットオフ）が「2025年8月」まで更新された点である。GPT-5.1以前のモデルは「2024年9月」までの知識に限られており、この約1年間に登場した新しいライブラリやフレームワークの変更点を知らなかったが、GPT-5.2では最新の技術トレンドやAPI仕様を学習済みであるため、従来モデルと比べて、前提となる情報を補足したり、背景を説明したりする手間が減る可能性がある。

　ただし、この進化には代償もある。API利用価格は、入力トークンが1.75ドル／100万トークン、出力トークンが14.00ドル／100万トークンに設定されており、GPT-5.1と比べておおむね40％程度の値上げとなった。一方で、現在の開発環境では、従来モデルの「GPT-5.1」やコーディング特化の「GPT-5.1-Codex」も引き続き利用可能であるため、用途やコスト感に応じてモデルを使い分けていくのが現実的だろう。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の発表から技術の“今”を少し深く見ていく。

　Deep Insider編集長の一色です。こんにちは。

　ついに「GPT-5.2」が来ましたね。Gemini 3 ProやClaude
Opus 4.5といった強力なライバルが次々と登場しており、OpenAIとしても、ある程度早いタイミングで次の一手を打ってくるだろうとは思っていましたが、想像以上に早い登場でした。GPT-5.1シリーズの一斉公開から、まだ1カ月しかたっていません。競争がそれだけ激しくなってきていると感じます。

　既にGitHub Copilotなどで利用できますが、開発用途については、いずれ「GPT-5.2-Codex」のようなコーディング特化モデルがあらためて投入される可能性が高いとみています。そのため、少なくとも現時点では、私は開発向けにGPT-5.2を積極的には使っていません。12月後半は米国ではホリデーシーズンでもあり、時期は分かりませんが、年明け以降に何らかの動きがあるのではないか、というのが個人的な予想です。

　冒頭で掲載したベンチマークはOpenAI発表のものであり、正直なところ、どこまでが実利用に近いのか、測りかねる部分もあります。私が確認した範囲では、ユーザー体感ベースのベンチマークサイト「LM Arena」のWeb開発カテゴリ（2025年12月11日時点）では、依然としてClaude Opus 4.5（20251101-thinking-32k）が首位を維持しているというデータがあります。一方で、GPT-5.2（high）も2位につけており、少なくともユーザー視点での使用感は高く評価されているようです。

　ちなみに、私自身は開発用途ではClaude Sonnet 4.5とGPT-5.1-Codex-Maxを併用し、一般用途ではGemini 3 ProとGPT-5.2を併用しています。やはり利用シーンによって「こちらの方が良い」と感じるモデルは変わるため、どれか1つが常に最適だと一概には言えない状況になってきていると感じます。

　ただし、GPT-5.2ではAPI価格が入力・出力ともに約40％上がっている点は無視できません。日常の小さな処理や大量の処理までを全てGPT-5.2に寄せるのは、コスト面で厳しい場面も出てくるでしょう。これまで以上に、用途に応じて「GPT-5.1-Codex」など既存モデルを使い続ける工夫が重要になってきたと思います。

　今回のリリースには、開発者が押さえておきたい特徴が他にも幾つか含まれている。これらを丁寧に解説すると長くなるため、残りは以下に箇条書きで整理しておく。

その他の特徴

モデルスペックと新機能

コンテキストウィンドウ：全モデルで40万トークン（約30万語相当）に対応。大規模なコードベースや長文ドキュメントを一度に読み込める
コンテキスト管理の強化（Compaction）：長いやりとり（コンテキスト）を自動的に圧縮し、思考の流れを保ったまま長時間タスクを継続しやすくする仕組み。大規模開発やエージェント的な利用と相性が良い
簡潔なリーズニング要約（Concise reasoning summaries）：複雑な思考を行った場合でも、その要点だけを短くまとめて提示する仕組み。結果の確認やレビューがしやすい
コード編集支援ツールの拡充： Responses APIで提供されるapply_patchにより、差分パッチ形式でコードを編集可能に。複数ファイルを段階的に修正する開発フローに向く
思考プロセス（リーズニング）の制御： APIパラメーターreasoning_effortにより、思考の深さをnone（即答・低遅延）、low、medium、high、xhigh（熟考・最高精度）の5段階で調整可能。用途に応じて速度と精度のバランスを選べる。デフォルトはnoneで、応答速度を重視した設定となっている
冗長性（Verbosity）の制御：出力の詳しさをlow（簡潔）、medium（標準）、high（詳細）から指定可能。特にlowは、コード生成時に解説を省きたい場合や、要点だけを確認したい場面で有効

OpenAI APIの価格表（GPT-5.2利用時）

100万トークン当たりの料金：
- 入力トークン： 1.75ドル
- 出力トークン： 14.00ドル

プロンプトキャッシュ利用時の料金（100万トークン当たり）：
- 入力トークン： 0.175ドル
- ※プロンプトキャッシュとは、一度処理したプロンプト（指示文）を保存しておく仕組み。キャッシュされた入力を再利用する場合、再計算が不要となるため、通常の入力より低コストで利用できる。

　※価格は変更される可能性があるため、利用の際はOpenAI公式ドキュメント「API 料金」を必ず確認してほしい。

情報元

「Deep Insider Brief ― 技術の“今”にひと言コメント」

AI・データサイエンスの学びをここから

初心者向け、データ分析・AI・機械学習・Pythonの勉強方法　＠ITのDeep Insiderで学ぼう