これは何の話?
最強の自律型コーディングモデル「GPT-5.1-Codex-Max」の性能を最大限に引き出すための公式プロンプトガイドです。
OpenAIが公開したこのガイドは、単なるAPI仕様書ではありません。従来のモデルよりも「思考トークン」を約30%削減しながら、SWE-Bench Verifiedで同等以上のスコアを叩き出すこの最新モデルを、いかにして「長時間・自律的」に働かせるかのノウハウが詰まっています。特に、文脈を圧縮して長期記憶を持たせる「Compaction」や、ディレクトリごとの指示を注入する「agents.md」といった新機能は、AIエージェント開発者にとって必見の内容です。

何がわかったか
具体的には、以下の3つの主要な進化と推奨設定が明らかになりました。
-
効率と知能のバランス: 推論強度(Reasoning Effort)は「Medium」が推奨されています。これで速度と知能のバランスが取れ、インタラクティブな用途に最適です。一方、超難問には「High/xHigh」を使うことで、数時間にわたる自律思考が可能になります。
-
「Compaction(コンパクション)」による超長文脈:
/responses/compactエンドポイントを使用することで、会話履歴を「暗号化されたコンテンツ(encrypted_content)」に圧縮できます。これにより、コンテキスト制限を回避しながら、数千ターンに及ぶ長い対話を継続可能になります。 -
Windows/PowerShellへの最適化: 従来の弱点だったPowerShellやWindows環境での動作が大幅に改善されています。

他とどう違うのか
最大の違いは、「自律性の維持」に対するアプローチです。
従来のモデル(GPT-4oなど)では、人間が細かく指示を出す「対話型」が主でしたが、Codex-Maxは「数時間放置しても勝手に動く」ことを前提に設計されています。そのため、プロンプトで「計画を最初に述べよ」といった指示を出すことは推奨されません(自律ロールアウトが途中で止まる原因になるため)。代わりに、apply_patchのような専用ツールを使って、モデル自身にコード変更を完結させるスタイルが求められます。
なぜこれが重要か
これは、「AIによる機能実装」が「チャット」から「委任(Delegation)」へ完全にシフトしたことを意味します。
エンジニアはAIと「相談」するのではなく、タスクを「丸投げ」し、AIはagents.mdという仕様書(コンテキスト)を読み込んで勝手に作業を進める。このワークフローの確立こそが、GPT-5.1-Codex-Maxの本質的な価値です。特に「Compaction」機能は、複雑なリファクタリングや大規模な機能追加において、トークン枯渇というこれまでの最大の壁を取り払うものです。

未来の展開・戦略性
今後、「リポジトリ全体の自律メンテナンス」が当たり前になるでしょう。
agents.mdの仕組み(ディレクトリごとに指示ファイルを置いておくと、AIがそれを読んで振る舞いを変える)は、AIネイティブな開発手法の標準になる可能性があります。開発者はコードだけでなく、「AIへの指示書」もリポジトリ管理するようになり、CI/CDパイプラインの中でAIが勝手に修正パッチを投げる未来がすぐそこまで来ています。
どう考え、どう動くか
私たちは、「AIに読ませるドキュメント(agents.md)」の整備を急ぐべきです。
例えば、リポジトリのルートに「コーディング規約」を、各機能ディレクトリに「アーキテクチャの意図」をagents.mdとして配置してみましょう。
指針:
- 既存プロンプトの見直し:「計画を教えて」等の指示を削除し、Codex-Maxの自律性を阻害しないようにする。
- ツールの刷新:
apply_patchやupdate_planなど、OpenAI推奨のツール定義をそのまま実装する。 - Compactionの導入:ロングコンテキストが必要なタスクでは、定期的にコンテキスト圧縮を行うループを組む。
- 今日やること:OpenAI Cookbookの
codex-cliリポジトリをクローンし、agents.mdの挙動を手元で確認する。 - 今週やること:自社プロダクトの複雑なタスク(バグ修正など)を、Reasoning Effort "High"で任せてみて、完遂率を計測する。

限界と未確定
- コスト対効果:CompactionやxHigh推論は強力ですが、トークン消費量が膨大になる可能性があります。コストパフォーマンスの分岐点はまだ不明確です。
- デバッグの難しさ:Compactionされた「暗号化コンテキスト」は人間には読めないため、AIが何を記憶し、何を忘れたかの検証が困難です。
- ツールの互換性:独自のカスタムツール(Web検索など)を組み合わせた際の安定性は、まだ十分な検証が必要です。

用語ミニ解説
- Compaction(コンパクション) 長くなった会話履歴を、AIだけが理解できる形式に圧縮する技術。人間で言う「要約メモ」のようなものだが、より情報量が多く機械可読性が高い。
- SWE-Bench Verified AIが実際のソフトウェアエンジニアリング(バグ修正や機能追加)をどれだけ解けるかを測る、業界標準のベンチマークテスト。




