1. これは何の話?

OpenAIが2026年2月5日、最新のエージェントコーディングモデルGPT-5.3-Codexを発表しました。複数ステップにわたるコンテキスト維持と計画適応が必要な「long-horizonタスク」への対応を強化した、OpenAI史上最も能力の高いエージェントコーディングモデルです。

ベンチマーク改善とタスクフロー

2. 何がわかったか

GPT-5.3-Codexは研究、ツール使用(コマンドライン、ターミナル)、複雑なソフトウェアライフサイクルタスク(PRD作成、データ分析、スライド作成)を処理できます。前モデルGPT-5.2-Codexと比較して、Terminal-Bench 2.0で77.3%(+13.3%)、OSWorld-Verifiedで64.7%(+26.5%)、サイバーセキュリティCTFチャレンジで77.6%(+10.2%)、SWE-Bench Proで56.8%(+0.4%)を達成。動作速度も約25%向上しています。ユーザーはモデルがタスクを実行中にリアルタイムでガイドし、アプローチを議論してエージェントを誘導できる「インタラクティブコラボレーション」機能が追加されました。

3. 他とどう違うのか

GPT-5.3-Codexの初期バージョンは、最終版のデバッグとローンチに使用され、自己開発を加速させました。OpenAI Preparedness Frameworkでサイバーセキュリティの「高能力」に指定され、完全な安全スタックと自動監視を搭載しています。

4. なぜこれが重要か

エージェントAIが人間の介入なく長時間自律的に作業できるようになることで、開発ワークフローが大きく変わる可能性があります。リアルタイムでのガイド機能により、AIの「暴走」を防ぎつつ生産性を向上できます。

5. 未来の展開・戦略性

ChatGPT有料プランで即日利用可能です。ChatGPTアプリ、CLI、IDE拡張、Webで利用できます。

6. どう考え、どう動くか

例えば、複雑なリファクタリングや脆弱性修正など、長時間のコーディングタスクにGPT-5.3-Codexを活用できます。

指針:

  • ChatGPT有料プランでGPT-5.3-Codexを試用する。
  • リアルタイムガイド機能で複雑なワークフローを試す。

次の一歩: ・今日やること:ChatGPTでGPT-5.3-Codexにアクセスを確認する。 ・今週やること:既存の開発タスクでGPT-5.2と5.3を比較する。

7. 限界と未確定

  • API価格は発表待ち。
  • 長時間タスクのコスト見積もりが困難。
  • サイバーセキュリティ機能の詳細は未公開。

8. 用語ミニ解説

  • 複数ステップにわたる長期的なコンテキスト維持と計画適応が必要なタスクです。(Long-horizon Tasks / 長時間自律タスク)
  • 実際の端末操作を伴うAIベンチマークです。(Terminal-Bench)

9. 出典と日付

OpenAI(公開日:2026-02-05):https://openai.com/index/introducing-gpt-5-3-codex/

補足メモ

OpenAI GPT-5.3-Codex発表:長時間自律タスク対応、Terminal-Bench 77.3%達成は、単発のニュースとして消費するだけでなく、前提条件と適用範囲を明確にしながら読むことで実務に転用しやすくなります。OpenAIが2026年2月5日、最新のエージェントコーディングモデルGPT-5.3-Codexを発表しました。長時間の自律タスク対応を強化し、Terminal-Bench 2.0で77.3%(+13.3%)、OSWorld-Verifiedで64.7%(+26.5%)を達成。前モデルより25%高速化し、ChatGPT有料プランで即日利用可能です。という観点を中心に、何が確定情報で何が解釈なのかを切り分けて整理することが重要です。

実際の運用では、関係者が同じ判断基準を持てるように、対象業務・期待効果・制約条件を短く言語化しておくと再現性が高まります。必要に応じて一次情報(https://openai.com/index/introducing-gpt-5-3-codex/)へ戻り、数値と日付の一致確認を定期的に行うと、認識ずれの拡大を防げます。