PPO

Reinforcement Learning / 1 件

記事論文

arXiv•2025年11月26日•3 min read

会話全体の成約など長期ゴールを、既存の単発RLHFスタック（PPO）をほぼ流用して最適化するために、Q関数を報酬モデル化して繰り返す「Iterative PPO」の狙いと手順を解説します。

#RLHF#営業・サポート#対話最適化