1. これは何の話?

OpenAIは2026年2月5日、Codex向けエージェントモデルの最新版GPT-5.3-Codexを発表しました。 エージェント型開発ツールの導入を検討するチーム向けに、このモデルの新機能と従来との違いを整理します。 GPT-5.3-Codexは、GPT-5.2の推論・専門知識とGPT-5.2-Codexのコーディング性能を統合し、処理速度が25%向上しています。 目的が「コード生成」から「PC上のほぼ全業務を担うエージェント」へ拡張された点が、今回の発表の核心です。
2. 何がわかったか
公開情報から確認できる主な事実は三つあります。 第一に、Terminal-Bench 2.0で77.3%を達成し、従来のGPT-5.2-Codexの64.0%を大きく上回りました。OSWorld-Verifiedでは64.7%で、人間スコア約72%に迫っています。 第二に、知識業務ベンチマークGDPvalでもGPT-5.2に匹敵する性能(wins or tiesで70.9%)を示し、コーディング専用から汎用知識労働支援へ進化しています。 第三に、Steering機能の導入により、エージェント作業中でもコンテキストを保ったまま追加指示や対話を続けられるようになりました。
3. 他とどう違うのか
従来のCodexモデルでは、ユーザーがエージェント作業中に追加指示を送ると、キュー方式で待ち行列に入れられ、現在のタスク完了後に処理されていました。 GPT-5.3-CodexのSteering機能は、作業中でも並走して指示を差し込める設計に変わっています。 また、サイバー領域でHigh capabilityに分類された初のモデルであり、ソフトウェア脆弱性の特定に特化したトレーニングが行われた点も従来と異なります。
4. なぜこれが重要か
エージェントの実用性において、人間がリアルタイムで軌道修正できるかどうかは重要な課題でした。 Steering機能は「完全自律」ではなく「人機協調」の設計思想を示しており、課題が「エージェントに何ができるか」から「人が多数エージェントをどう管理するか」に移行したことを象徴しています。 開発チームにとって、エージェントの進捗監視と介入のUXが改善される点が実務的なメリットです。
5. 未来の展開・戦略性
OpenAIはCodexを「開発者向けエージェント」から「あらゆる知識労働者向けエージェント」へ拡張しようとしています。 APIアクセスは「近日中の有効化に向けて取り組み中」とされており、正式公開後はCI/CDパイプラインや監視ダッシュボードとの統合が進むと予想されます。 サイバーセキュリティ領域での活用も、Trusted Access for CyberパイロットやAardvarkベータ拡大を通じて加速しそうです。
6. どう考え、どう動くか
例えば、現在のコードレビューやデバッグ作業を一部Codexに委譲しているチームなら、Steering機能の有効化で作業中断なく追加指示を送れるかを検証すると導入効果が測れます。
- GPT-5.2-Codexと同じタスクで実行し、生成品質とレスポンス速度の差を比較する。
- Steering機能の設定(「設定」→「一般」→「フォローアップの動作」)を確認し、割り込み処理の挙動を把握する。
- API正式公開の動向を追い、自動化パイプラインへの組み込み計画を立てる。
次の一歩:
- 今日やること:ChatGPTアプリまたはCLIでGPT-5.3-Codexを呼び出し、既存タスクと比較する。
- 今週やること:Steering機能を使った作業中断・再開のフローを1つ試し、UXの改善点を記録する。
7. 限界と未確定
- APIアクセスは「近日中」とされているだけで、正式な提供開始日は未発表です。
- サイバーセキュリティ能力の評価はCybersecurity CTFで77.6%ですが、実務での脆弱性検出精度は未検証です。
- 価格体系やレート制限についても詳細な情報は公開されていません。
8. 用語ミニ解説
- エージェント作業中でもコンテキストを保ったまま追加指示を差し込める機能です。(Steering / ステアリング)
- 米国GDPの5%以上を占める主要産業の実務タスクで性能を測るベンチマークです。(GDPval / 知識業務評価)
9. 出典と日付
Zenn galirage(公開日:2026-02-07):https://zenn.dev/galirage/articles/openai-gpt-5-3-codex










