Bi-RAR

Research / 1 件

記事論文

arXiv•2025年11月12日•2 min read

Bi-RARは検索付き推論の各ステップを前進・後退の情報距離で評価し、多目的RLで段階的報酬を与えることで7つのQA系ベンチマークで既存法を上回ったと報告します。

#LLM Research#RAG