これは何の話?

最強の自律型コーディングモデル「GPT-5.1-Codex-Max」の性能を最大限に引き出すための公式プロンプトガイドです。

OpenAIが公開したこのガイドは、単なるAPI仕様書ではありません。従来のモデルよりも「思考トークン」を約30%削減しながら、SWE-Bench Verifiedで同等以上のスコアを叩き出すこの最新モデルを、いかにして「長時間・自律的」に働かせるかのノウハウが詰まっています。特に、文脈を圧縮して長期記憶を持たせる「Compaction」や、ディレクトリごとの指示を注入する「agents.md」といった新機能は、AIエージェント開発者にとって必見の内容です。

何がわかったか

具体的には、以下の3つの主要な進化と推奨設定が明らかになりました。

  1. 効率と知能のバランス: 推論強度(Reasoning Effort)は「Medium」が推奨されています。これで速度と知能のバランスが取れ、インタラクティブな用途に最適です。一方、超難問には「High/xHigh」を使うことで、数時間にわたる自律思考が可能になります。

  2. 「Compaction(コンパクション)」による超長文脈: /responses/compactエンドポイントを使用することで、会話履歴を「暗号化されたコンテンツ(encrypted_content)」に圧縮できます。これにより、コンテキスト制限を回避しながら、数千ターンに及ぶ長い対話を継続可能になります。

  3. Windows/PowerShellへの最適化: 従来の弱点だったPowerShellやWindows環境での動作が大幅に改善されています。

他とどう違うのか

最大の違いは、「自律性の維持」に対するアプローチです。

従来のモデル(GPT-4oなど)では、人間が細かく指示を出す「対話型」が主でしたが、Codex-Maxは「数時間放置しても勝手に動く」ことを前提に設計されています。そのため、プロンプトで「計画を最初に述べよ」といった指示を出すことは推奨されません(自律ロールアウトが途中で止まる原因になるため)。代わりに、apply_patchのような専用ツールを使って、モデル自身にコード変更を完結させるスタイルが求められます。

なぜこれが重要か

これは、「AIによる機能実装」が「チャット」から「委任(Delegation)」へ完全にシフトしたことを意味します。

エンジニアはAIと「相談」するのではなく、タスクを「丸投げ」し、AIはagents.mdという仕様書(コンテキスト)を読み込んで勝手に作業を進める。このワークフローの確立こそが、GPT-5.1-Codex-Maxの本質的な価値です。特に「Compaction」機能は、複雑なリファクタリングや大規模な機能追加において、トークン枯渇というこれまでの最大の壁を取り払うものです。

未来の展開・戦略性

今後、「リポジトリ全体の自律メンテナンス」が当たり前になるでしょう。

agents.mdの仕組み(ディレクトリごとに指示ファイルを置いておくと、AIがそれを読んで振る舞いを変える)は、AIネイティブな開発手法の標準になる可能性があります。開発者はコードだけでなく、「AIへの指示書」もリポジトリ管理するようになり、CI/CDパイプラインの中でAIが勝手に修正パッチを投げる未来がすぐそこまで来ています。

どう考え、どう動くか

私たちは、「AIに読ませるドキュメント(agents.md)」の整備を急ぐべきです。

例えば、リポジトリのルートに「コーディング規約」を、各機能ディレクトリに「アーキテクチャの意図」をagents.mdとして配置してみましょう。

指針:

  1. 既存プロンプトの見直し:「計画を教えて」等の指示を削除し、Codex-Maxの自律性を阻害しないようにする。
  2. ツールの刷新:apply_patchupdate_planなど、OpenAI推奨のツール定義をそのまま実装する。
  3. Compactionの導入:ロングコンテキストが必要なタスクでは、定期的にコンテキスト圧縮を行うループを組む。
  • 今日やること:OpenAI Cookbookのcodex-cliリポジトリをクローンし、agents.mdの挙動を手元で確認する。
  • 今週やること:自社プロダクトの複雑なタスク(バグ修正など)を、Reasoning Effort "High"で任せてみて、完遂率を計測する。

限界と未確定

  • コスト対効果:CompactionやxHigh推論は強力ですが、トークン消費量が膨大になる可能性があります。コストパフォーマンスの分岐点はまだ不明確です。
  • デバッグの難しさ:Compactionされた「暗号化コンテキスト」は人間には読めないため、AIが何を記憶し、何を忘れたかの検証が困難です。
  • ツールの互換性:独自のカスタムツール(Web検索など)を組み合わせた際の安定性は、まだ十分な検証が必要です。

用語ミニ解説

  • Compaction(コンパクション) 長くなった会話履歴を、AIだけが理解できる形式に圧縮する技術。人間で言う「要約メモ」のようなものだが、より情報量が多く機械可読性が高い。
  • SWE-Bench Verified AIが実際のソフトウェアエンジニアリング(バグ修正や機能追加)をどれだけ解けるかを測る、業界標準のベンチマークテスト。