編集体制

一次情報の確認と要約は編集部が担当し、生成AIはリサーチ補助とドラフト作成に使っています。出典・確認日を明記し、誤りやリンク切れは順次修正します。

MUSIC

Reward Model Training / 1

記事論文
arXiv3 min read

MUSIC: マルチターン対話の報酬モデル改善に向けた多ステップ指示対比学習

マルチターン会話を適切に評価できる報酬モデルの訓練手法MUSIC。複数ターンにまたがる対比データを合成し、既存の単一ターン評価との両立を実現します。

#報酬モデル#マルチターン会話#データ拡張