SAPO | ツールTipsライブラリ

記事論文

arXiv•2025年12月9日•4 min read

SAPOはLLMの強化学習における不安定性を解消する新手法です。従来のハードクリッピングに代わり、温度制御によるソフトゲートで学習信号を保持しながら安定化を実現。Qwen3-VLで適用され効果を実証しています。

#強化学習#LLM#論文