Feedback-Driven Improvement Chains | ツールTipsライブラリ

記事論文

arXiv•2025年12月30日•2 min read

LLMの応答品質を向上させる新しいフィードバック手法。テキストの特定部分に「好き」「嫌い」をマークし、逐次的に改善する方式が、従来の全体評価型手法より効果的であることを示しました。

#RLHF#微調整#人間フィードバック