
記事論文
arXiv••3 min read
Arbitrage: 逐次推論に特化したステップ級スペキュレイティブ生成
LLMの推論速度を上げるための技術「スペキュレイティブ・デコーディング(推測的生成)」を、数学などの段階的な推論タスク(Chain of Thought)に最適化した新しいフレームワーク「Arbitrage」の提案です。 従来の手法は、小さなモデル(ドラフトモデル)に文章を書かせ、大きなモデル(ターゲットモデル)がそれをチェックしていましたが、数学のようなタスクでは小さなモデルのミスが多く、チェック→却下の繰り返しで逆に遅くなることがあ
#LLM#Optimization#Research