記事2025年11月26日•3 min readマルチターン成果をPPOで最適化するIterative PPOの設計会話全体の成約など長期ゴールを、既存の単発RLHFスタック(PPO)をほぼ流用して最適化するために、Q関数を報酬モデル化して繰り返す「Iterative PPO」の狙いと手順を解説します。#RLHF#対話最適化#営業・サポート