記事論文arXiv•2026年1月2日•2 min read反復デプロイがLLMの計画能力を向上 ― 暗黙の強化学習が引き起こす新現象LLMの反復デプロイが計画能力を向上させるメカニズムを解明。この過程が暗黙の強化学習を実装していることを示し、AIセーフティへの含意を議論しています。#計画能力#強化学習#モデルデプロイ