記事2025年11月12日•2 min readBi-RARがRAG推論を前後両方向の報酬で鍛えるBi-RARは検索付き推論の各ステップを前進・後退の情報距離で評価し、多目的RLで段階的報酬を与えることで7つのQA系ベンチマークで既存法を上回ったと報告します。#LLM研究#RAG