記事論文arXiv•2025年12月25日•3 min readG2RL:勾配誘導でLLMの自律探索を最適化する強化学習フレームワークG2RLは勾配方向の多様性に基づきLLMの探索を誘導する強化学習手法で、Qwen3モデルでMATH500やAIME等の推論ベンチマークを改善しました。#LLM#強化学習#推論