記事論文arXiv•2025年12月9日•4 min readSAPO:LLMの強化学習を安定させる「ソフトな制御」SAPOはLLMの強化学習における不安定性を解消する新手法です。従来のハードクリッピングに代わり、温度制御によるソフトゲートで学習信号を保持しながら安定化を実現。Qwen3-VLで適用され効果を実証しています。#強化学習#LLM#論文