これは何の話?
LLMエージェントが複雑なコードベースの変更や長時間にわたるタスクを処理する際、コンテキストウィンドウの制限とコンテキスト腐敗(context rot)が大きな課題となっています。Prime Intellectが提案するRecursive Language Models(RLM)は、コンテキスト折りたたみ(context folding)という手法でこれを解決しようとするアプローチです。外部ファイルに依存せず、モデル自身がPython REPLとサブLLMを使ってコンテキストを管理することで、長期タスクの処理効率を向上させます。

何がわかったか
RLMの核心は、LLMが自身のコンテキストをPython REPLを通じて検査・変換・委譲できる点にあります。具体的には、巨大な入力データ(PDF、データセット、動画など)を直接コンテキストに読み込むのではなく、Python関数でフィルタリング・検索し、必要な処理をサブLLM(フレッシュなLLMインスタンス)に委譲します。これにより、メインLLMのコンテキストを軽量に保ちつつ、複雑なタスクを完遂できます。GPT-5-miniを使った実験では、標準のLLMと比較してトークン効率の向上とタスク成功率の改善が確認されました。
他とどう違うのか
既存のコンテキスト管理手法(Claude CodeやOpenAI Codexのファイルシステムベース圧縮)との違いは、RLMがモデル内部で完結する点です。ファイル書き出しや外部ストレージを介さず、Python REPLとサブLLM呼び出しという「再帰的」構造でコンテキストを管理します。また、AgentFoldやContext-Foldingといった類似研究と比較しても、RLMは最もシンプルで柔軟な構造を持つとPrime Intellectは主張しています。

なぜこれが重要か
LLMエージェントが数週間から数か月にわたる長期タスク(大規模プロジェクトの開発、継続的なデータ分析など)を処理するには、コンテキスト管理の根本的な改善が必要です。RLMが示すアプローチは、強化学習でコンテキスト管理を学習させるという方向性であり、アーキテクチャ改善(長コンテキストアテンション)と相補的な技術として位置づけられます。

未来の展開・戦略性
Prime Intellectは、RLMを「2026年のパラダイム」と位置づけており、今後は再帰深度の拡張(サブLLMがさらにサブLLMを呼ぶ構造)、小規模モデルでの訓練、マルチモーダル対応を計画しています。独自の強化学習ライブラリ「prime-rl」と「verifiers」を通じてオープンソース実装が公開されており、コミュニティでの検証・拡張が期待されます。

どう考え、どう動くか
エージェントシステムを構築する開発者は、RLMの設計原則を参考にすることで、自社エージェントのコンテキスト管理を改善できる可能性があります。

- Prime Intellectの「verifiers」リポジトリを確認し、RLMEnvの実装を読む
- 自社のエージェントでコンテキスト肥大化が問題になっているタスクを特定する
- サブLLM委譲パターンを小規模プロトタイプで検証する
次の一歩:
- 今日やること:GitHubでverifiersリポジトリのRLM関連コードを確認する
- 今週やること:自社エージェントのコンテキスト消費量を3つのタスクで計測し、ボトルネックを特定する
限界と未確定
- 実験はGPT-5-miniなど特定モデルに限定されており、他モデルでの汎用性は検証途上
- 再帰深度は現時点で1に制限されており、深い再帰構造の効果は今後の課題
- 強化学習による訓練は「今後の作業」とされており、本記事時点では推論時のスキャフォールディングのみ
用語ミニ解説
- コンテキスト折りたたみ(Context Folding):長大なコンテキストを圧縮・再構成してコンテキストウィンドウ内に収める手法群。ファイル要約、階層的要約、再帰委譲などが含まれる。
- コンテキスト腐敗(Context Rot):コンテキストが長くなるにつれてLLMの性能が低下する現象。重要情報の埋没や注意の分散が原因。
出典と日付
Prime Intellect Blog(公開日:2026年1月頃 推定):https://www.primeintellect.ai/blog/rlm
arXiv RLM論文(参照):https://arxiv.org/abs/2512.24601






