第43回

ChatGPT最新「GPT-5.2」の進化点に、“コードレッド”発令の理由が見える

2025年12月17日 18時00分更新

　OpenAIは12月11日（現地時間）、ChatGPTの最新基盤モデルとなる「GPT-5.2」を発表した。GPT-5.1の後継にあたるこのモデルは、長文コンテキストの扱いや推論能力、コード生成、視覚情報の理解など、実用面での安定性と精度を中心に強化されている。

　一方、ChatGPT自体もこの数ヵ月で着実に変化してきた。複数人でAIを共有できるグループチャット機能や、日本でも利用可能になったショッピング／購入リサーチ機能、外部ツール連携の拡張など、モデル性能以外のアップデートも進んでいる。

　今回はGPT-5.2の概要と進化点を整理しつつ、この数ヵ月で追加されたChatGPTの新機能もあわせて見ていこう。

GPT-5.2とは何か──ChatGPTの中核モデルが進化

　今回のアップデートは新しいボタンが増えたり画面が変わったりするタイプではなく、普段使いで「あれ、前より安定してる?」「コード生成、前よりイケてる?」と感じるタイプの底上げである。OpenAI自身も、スプレッドシートやプレゼンの作成、コード生成、画像理解、長文の処理、ツール連携、複数ステップが必要な作業といった実務寄りのタスクを明確にターゲットにしている。

GPT-5.2 Thinkingは、知識業務（GDPval）やコーディング（SWE-Bench Pro）、科学（GPQA Diamond）、抽象推論（ARC-AGI）などで、前世代を上回るスコアを記録

　たとえば知識業務タスクを測る「GDPval」では、GPT-5.2 Thinkingが業界の専門家と比較して70.9%で勝つか同等という結果を出している。前世代のGPT-5（38.8%）からほぼ倍増だ。コーディングの「SWE-Bench Pro」では55.6%（GPT-5比で約9ポイント向上）、科学分野の「GPQA Diamond」では92.4%など、複数の領域でまんべんなく底上げされている。

　ユーザー目線で一番効くのは、長文の処理が安定したことだろう。たとえば100ページのPDFを放り込んで「この3つの提案の違いを表にして」といった指示を出したとき、途中で論点がズレたり、3ページ目の内容を忘れたりする「あるある」が起きにくくなった。公式ページでも「長文コンテキスト」が独立項目になっていて、4,000〜256,000トークンまで複数の条件で改善が示されている。

　次に、推論・分析・コード生成における粘り強さの向上だ。単発の質問に答えるだけでなく、「整理→仮説→検証→修正」といった複数ステップの作業でも破綻しにくくなることを目指している。コーディング指標を前面に出しているのも、こうした継続的な作業への対応力を示すためだ。

GPT-5.2 Thinkingでは、同じプロンプトでもスプレッドシートの体裁や整理がかなり改善している

　この比較が面白いのは、抽象的な「賢さ」の話ではなく、成果物の見た目レベルで差が出ている点だ。左（GPT-5.1）は「うーん、まあ使えるかな……」レベルだが、右（GPT-5.2）は「お、これそのまま使えるじゃん」レベルになっている。OpenAIは、実際に何か作らせて人間が評価する「GDPval」のような指標を重視しており、この改善はその表れだ。

　Vision（画像・図表の理解）も強化されている。グラフやスクリーンショット、図解を読み取るだけでなく、前後の文脈とつなげて解釈し、次の作業（要約、指摘、変換、提案）に活かせるようになった。たとえば、売上グラフのスクリーンショットを送って「この傾向から来期の戦略を3つ提案して」と依頼すれば、グラフの数値を読み取った上で文脈に即した提案を返してくれる、といった使い方だ。公式ページでも「Vision」が独立項目として扱われている。

Instant / Thinking / Pro──用途で使い分ける3つのバリエーション

　では、実際にどう使えるのか。GPT-5.2は12月11日から段階的にロールアウト中で、ChatGPT上でInstant / Thinking / Proの3バリエーションとして提供される。Instantは無料ユーザーを含む幅広い層に展開されており、ThinkingやProは主に有料プラン向けに提供される。

　これは「どれが新モデルか」という話ではなく、用途によって使い分けるための整理だ。ざっくり言えば、Instantは「ちょっと調べ物」「翻訳」といった日常使い向けで応答が速い。Thinkingは「複雑なコード書いて」「この長文から論点抽出して」といった重めのタスク向けで、じっくり考えて精度を出す。Proは「絶対にミスれない資料作成」といった場面向けで、最高精度と信頼性を提供する、という位置づけだ。

　技術的なスペックとしては、コンテキストウィンドウが400,000トークン（GPT-5の約3倍）、最大出力が128,000トークン、ナレッジカットオフは2025年8月31日となっている。

　なお、API価格はモデルのバリエーション（Instant / Thinking / Pro）によって異なる。代表的な設定では、入力100万トークンあたり約$1.75、出力が約$14とされており、GPT-5.1と比べて単価自体は上昇している。一方で、推論効率の改善により、同等品質の成果物を得るまでの総コストは下がるケースもある。

この記事をシェアしよう