記事論文arXiv•2025年12月31日•3 min readMUSIC: マルチターン対話の報酬モデル改善に向けた多ステップ指示対比学習マルチターン会話を適切に評価できる報酬モデルの訓練手法MUSIC。複数ターンにまたがる対比データを合成し、既存の単一ターン評価との両立を実現します。#報酬モデル#マルチターン会話#データ拡張